谷歌Gemini和苹果的顶级华人科学家离职创业，剑指AGI

新智元报道

[新智元导读]谷歌Gemini数据联合负责人AndrewDai联手苹果首席研究科学家YinfeiYang，隐身创办AI新秀Elorian。首轮将融资5000万美元，剑指「视觉推理」这个下一代大模型的核心问题。

硅谷的AI创业热潮中，最昂贵的筹码永远押注在最资深的「大脑」上。

曾在谷歌DeepMind效力长达14年的资深研究员AndrewDai，正在筹建一家名为Elorian的AI初创公司。

这家尚不为人所知的公司，种子轮融资目标即高达5000万美元。

与AndrewDai联手的，是刚于去年12月离职的苹果研究科学家YinfeiYang。

这两位分别来自谷歌和苹果的技术老兵，正在试图解决大模型领域的下一个核心问题：视觉推理（VisualReasoning）。

领投这轮融资的，极有可能是由前CRV普通合伙人MaxGazor创立的StrikerVenturePartners。

如果交易达成，这将是硅谷近期最受瞩目的早期融资之一，也再次印证了资本市场对于「谷歌毕业生」的疯狂追捧。

14年，从BERT早期到Gemini幕后

在AI研究圈，AndrewDai这个名字代表着一种「长期主义」。

不同于那些在Transformer浪潮爆发后才匆匆入局的创业者，AndrewDai在谷歌的工号可以追溯到2012年。

这意味着他完整经历了深度学习从边缘学科走向世界中心的整个周期。

在他的LinkedIn履历中，最引人注目的是他作为Gemini模型预训练（Pre-training）数据工作的联合负责人。

在当前的大模型战争中，数据质量和预训练策略被认为是决定模型智商上限的关键因素。

能够在这个核心环节担任负责人，足以证明他在谷歌内部的权重。

AndrewDai的学术贡献不仅限于此。

他曾与谷歌首席科学家JeffDean以及QuocV.Le（GoogleBrain的传奇人物）共同撰写过多篇论文。

早在2015年，他发表的一篇关于半监督序列学习（Semi-supervisedSequenceLearning）的论文，就被认为对后来OpenAI的GPT系列模型产生了深远的启发。

一位熟悉AndrewDai的人士评价道：「他是语言模型的先驱之一，过去二十年一直专注于预训练相关的研究。他最擅长的，就是如何从海量、嘈杂的数据源中提炼出高质量的“知识”。」

如果说AndrewDai代表了谷歌在大数据处理上的暴力美学，那么联合创始人YinfeiYang则带来了苹果系的精致与多模态视角。

YinfeiYang此前在苹果机器学习团队担任首席研究科学家（PrincipalResearchScientist），主要参与苹果自研AI模型的开发。

在加入苹果之前，他也曾在GoogleResearch工作过四年，专注于多模态表示学习。

他在图像-文本共嵌入（Image-textCo-embedding）领域的专长，恰好填补了单纯语言模型的感知短板。

视觉推理

不只是「看见」，更要「理解」

Elorian究竟想做什么？

根据AndrewDai的说法，Elorian并不是要再造一个ChatGPT，而是要构建一个能够「同时理解和处理文本、图像、视频和音频」的原生多模态模型。

目前的AI模型大多是基于文本训练，再通过「补丁」的方式接入视觉能力。

而Elorian的愿景是构建一个天生的「通感者」。

这种模型不再是将图片转化为文字标签，而是像人类一样，通过视觉直接感知物理世界的逻辑。

「视觉推理」被认为是通向AGI的必经之路。

AndrewDai提到，机器人将是Elorian技术的一个潜在应用场景，但他强调公司的愿景远不止于此。

在硅谷的投资人眼中，这通常意味着Elorian瞄准的是AI智能体的广阔市场——一个能够像人类一样看着电脑屏幕、理解图形用户界面（GUI）、处理退货流程、审核法律文件、操作其他软件的超级助手。

它不需要你通过API喂给它数据，而是直接像你一样「看」着Excel表格、「听」着电话录音，同时「读」懂屏幕上的邮件，并实时做出决策。

这就是Elorian试图构建的未来。

资本的逻辑

为「血统」买单

5000万美元的种子轮融资，在几年前听起来像是天方夜谭，但在今天的AI泡沫中，这似乎成了顶级团队的「入场费」。

正在与Elorian洽谈领投的StrikerVenturePartners，本身也是一家极具话题性的新锐基金。

其创始人MaxGazor曾是老牌风投CRV的合伙人，以眼光毒辣著称。

他在去年10月刚刚自立门户，Elorian很可能是该基金成立后的首批标志性赌注之一。

对于MaxGazor这样的投资人来说，他们赌的不仅仅是技术路径，更是「谷歌DeepMind+苹果」这种稀缺的基因组合。

谷歌提供了大规模训练基础设施的经验，而苹果则有着将AI落地到具体产品的务实文化。

Elorian的出现，也折射出大模型战场的转移。

第一阶段的战争是关于「文本生成」，OpenAI凭借ChatGPT拔得头筹；

第二阶段的战争则是关于「多模态理解」和「物理世界交互」。

在这个新战场上，无论是Gemini还是GPT，都在疯狂补课视觉能力。

Elorian作为一个初创公司，想要在巨头的夹缝中生存，唯一的筹码就是技术上的代差，或者在垂直场景（如复杂的视觉Agent）上做到极致。

在硅谷，每一个从巨头出走的顶级研究员，都怀揣着一个「反叛」的梦想：用更小的团队、更聚焦的资源，去颠覆老东家庞大而迟缓的官僚体系。

AndrewDai离开了效力14年的谷歌，YinfeiYang离开了发布Apple智能的苹果。

他们选择了一条最艰难的路——试图教会机器不仅「看见」世界，还要「看懂」世界。

这让人想起计算机视觉领域的一句老话：「摄像头只是眼睛，算法才是灵魂。」

而在AI的洪流中，真正稀缺的永远不是算力，而是那些能够透过数据的迷雾，看清未来方向的眼睛。

参考资料：

https://www.theinformation.com/articles/former-google-apple-researchers-raising-50-million-new-visual-ai-startup

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

谷歌Gemini和苹果的顶级华人科学家离职创业，剑指AGI

苹果用户必须要关闭这个设置。使用苹果手机的朋友们要注意了，一定要关闭锁屏时也可

苹果这家公司伟大之处在哪里？

擦，功德没了迷惑行为大赏ai

放量暴涨！商业航天即将落幕，AI应用的时代到了！看看上午的盘面，涨幅榜前三名都

周末AI应用爆了，看到不少卖方都在说这个方向。利好催化也不少，一是“豆包AI”成

iPhone最浪漫的5个设置只要愿意折腾，系统封闭的iPhone也能玩出花样啊，

AI应用细分领域核心梳理，带你领略科技前沿！🚀💡AI赋能多领域：广告、游

为什么我感觉马斯克严重缺乏政治意志？