昨晚,李飞飞又发了她的最新研究。 这次依然在讲空间智能(Spatial Intelligence);内容挺长,我把原文地址放在评论区。 那她具体都说了什么呢?我带你快速过一遍。 首先,她认为,AI 正在进入第四个阶段:从文字到多模态,从理解到生成,而下一个前沿,是让机器真正「进入世界」。 也就是说,AI 要能「看世界、走世界、改世界」。 李飞飞用了个很妙的说法:空间智能,会把感知变成推理,把感知变成行动,把想象变成创造。 什么意思呢? 现在的 GPT等模型它们再聪明,也主要活在文本里;它们会写,会画,但不会「理解」空间。 比如你让它设计一间房,它能画出房间的样子,却不知道门在哪、光线从哪来、也不知道人走进去之后该往哪转。 而空间智能,就要解决这个问题:让 AI 拥有真正的世界模型(World Model),知道世界是三维的、有时间、有物理规则。 它能理解「物体之间的关系」,能在虚拟空间中行走、建模、推演。 举个例子: 未来 AI 做电影,是直接创造一个可走进去的 3D 世界,机器人不用靠程序化动作,全凭直觉判断距离、方向、因果;甚至科学家也能用 AI 模拟实验、预测结果。 李飞飞说,这是她 25 年科研生涯中最激动的方向。她创办的公司,正在做第一个能生成并维护一致 3D 环境的模型,名字叫 *Marble*。 简单理解,就是「AI 版的 Unreal Engine」,但它自己能思考。 我觉得这事挺有意思。 过去几年,我们让机器会说话、会作图,现在它要学会「动」了;如果说语言模型是「脑」,那空间智能,就是让 AI 有了「身体」。 当然,这背后还有个更大的隐喻。李飞飞在文末写: 没有空间智能,我们对真正智能机器的梦想将不完整。 有意思。因为从某种意义上看,人类的智力也是从“空间感”开始的;我们先学会抓、走、看,然后才学会说、写、想;AI 也一样,它必须先理解世界的物理秩序,才能真正理解人。 所以,我觉得这篇文章值的看一看。 AI 从「文字」阶段,开始往「世界」阶段进化,这可能是继大模型之后,最值得关注的下一场浪潮。 国内,目前看到群核一直在做这方面叙事,我感觉,高德,还有百度地图也应该关注关注这方面,3D的世界加上大模型能力,这才是新增量。 最起码比搞什么外卖强吧....
