Sora,Veo影片生成都太弱,Marble真实物理世界才是未来!Late

青松聊商业 2025-12-02 12:54:53

Sora, Veo 影片生成都太弱,Marble 真实物理世界才是未来!Latent Space 对 AI 教母李飞飞的公司 World Labs 的专访,同访的还有大神 Justin Johnson: 现在以「像素」->「Patch」->「有意义图形」->「图片(帧)」->「影片」的方式,真的落伍了,而这个方式,完全只能从序列资料猜测,完全无法满足物理世界真实情况,而这个完全改变现有方式,划时代的产品,叫做 Marble。喔?又是像 OpenAI 的 Sora 那样的影片生成器吗?可不是,教母的高度又和大家不一样了。大家已经觉得文字生成影片很厉害了。但 World Labs 做的事情完全不同层次。Sora 生成的是「影片」,但 Marble 生成的是一个「活的 3D 世界」 。差在哪?Sora 的原理其实是在「猜」像素。它从上一帧去猜下一帧的画面。最大问题的就是它是扁平、被动的。你在看影片时,不能突然说:「我想镜头往左转,看看那棵树后面藏什麽。」因為那棵树后面根本没东西,AI 没画出来,但在真实世界中,除非是电影道具,所有物体在没看到时也是真实存在的,月球并不因為你不看他而不存在(爱因斯坦说的)。但是 Marble 不一样,它生成的是一个原生的 3D 环境。意思就是,如果生成了一个下雨的街道,可以像在 Cyberpunk 2077 拿著手机在裡面走来走去,可以绕到房子后面看门牌,路边猫咪的细节,它是实体的并且有空间结构。怎麽做?首先使用图形学界最红「3D 高斯泼溅」(3D Gaussian Splatting, 3DGS)。传统的 3D 游戏是用三角形拼出来的,这通常需要繁琐的人工建模步骤,生成成本极高,后来出现了黑盒子的神经辐射场 (NeRF)。这是用神经网络算出来的黑盒,看不到裡面。但 Marble 用的这个高斯泼溅,就像是一位印象派画家在 3D 空气中「泼墨」。它在空间裡撒下成千上万个半透明的小云团(泼溅),这些云团有颜色、有方向,有纹理。远看时这些密密麻麻的云团就叠加成了一张清晰的物体,如猫咪,人物,远山。最神奇的是,它是「可编辑」的。NeRF 这一类的 3D 成像中,所有资料都混在黑盒中,想把画面裡的猫换成狗?不行。因為 AI 根本不知道哪裡是猫。但 Marble 因為是用一堆「小云团」组成的,你想拿走猫,就像在 Photoshop 关掉图层一样,把代表猫的那堆云团移除就好。这就是李飞飞说的「空间智慧」的第一步:不但能看,还要能动手改。但最让我吃惊的,就是 Marble 是使用 Transformers 架构哦!没错,就是那个 LLM 用的 Transformer。Transformer 為什麽和 GPU 最速配,最主要的原因就是他可以把所有文字序列都平行处理。换句话说,在 Transformer 的眼裡,文字不再有时间序列,大家都是同时存在的,因此 Transformer 架构天生就不是处理「序列资料」,而是处理「同时存在的资料」的。它其实是 3D 引擎!我胡说八道?如果你把 Position Encoding 拿掉,你就知道我在说什麽了。所以,Transformer 那种可以让所有元素同时互动的「注意力机制」,用来处理这种无序的 3D 粒子,反而比处理文字还要顺手又原生,这也是為什麽 World Labs 把身家性命都押在 Transformer 上来做 3D。听到这,你可能会担心:「哇,这运算量肯定大到爆炸吧?是不是要像黑神话悟空那样用顶级显卡才跑得动?」Marble 的结果就是让 5 年前的 iPhone 12/13 都能跑满 60 帧。使用了一种聪明的算法,把画面切成无数小方块,只运算你眼睛看得到的部分。如果你转头看不到背后,背后的世界就不渲染,这让手机也能跑出神兽级的 3D 场景。难道李飞飞他们这麽大费周章,只為了玩玩游戏或装修房子?这涉及到了一个非常大的革命,3D 物理世界的机器人的训练,这可以解决「资料饑荒」的问题。你想想,ChatGPT 之所以聪明,是因為它读完了网路上所有的书。但机器人很可怜,网路上没任何物理资料。举例来说,每个杯子的重量材质形状都不一样,為了训练机器人拿起杯子不捏碎也不能摔到地上,不可能真的机器人每天摔杯子练习吧?Marble 就是要给机器人造一个无穷无尽的物理虚拟世界。World Labs 提出了一种叫「物理蒸馏」(Physics Distillation)的黑科技,让 AI 透过模仿传统物理引擎来真正内化摩擦力与重力,而不只是画得像。在这个虚拟的平行宇宙裡,机器人可以疯狂试错,摔碎一百万个虚拟杯子,自驾车可以撞个 1000 亿次车祸来学会物理定律,练习好之后,把练好的大脑下载到现实世界的机器人身上。这就是所谓的「具身智慧」(Embodied AI)的终极形态 。我们正站从文字虚拟世界的 LLM 走向物理世界 AI 的路上。现在的 AI 只懂文字或图形的 Token,但未来的 AI 透过 Marble 将会变成一个懂物理、空间、定律、能动手的真实物体。Sora, Veo 这种生成影片的功能,真的只会变在网路画画梗图和影片的玩具了。

0 阅读:0
青松聊商业

青松聊商业

感谢大家的关注