Sora,Veo影片生成都太弱，Marble真实物理世界才是未来！Late

Sora, Veo 影片生成都太弱，Marble 真实物理世界才是未来！Latent Space 对 AI 教母李飞飞的公司 World Labs 的专访，同访的还有大神 Justin Johnson：现在以「像素」->「Patch」->「有意义图形」->「图片(帧)」->「影片」的方式，真的落伍了，而这个方式，完全只能从序列资料猜测，完全无法满足物理世界真实情况，而这个完全改变现有方式，划时代的产品，叫做 Marble。喔？又是像 OpenAI 的 Sora 那样的影片生成器吗？可不是，教母的高度又和大家不一样了。大家已经觉得文字生成影片很厉害了。但 World Labs 做的事情完全不同层次。Sora 生成的是「影片」，但 Marble 生成的是一个「活的 3D 世界」。差在哪？Sora 的原理其实是在「猜」像素。它从上一帧去猜下一帧的画面。最大问题的就是它是扁平、被动的。你在看影片时，不能突然说：「我想镜头往左转，看看那棵树后面藏什麽。」因為那棵树后面根本没东西，AI 没画出来，但在真实世界中，除非是电影道具，所有物体在没看到时也是真实存在的，月球并不因為你不看他而不存在(爱因斯坦说的)。但是 Marble 不一样，它生成的是一个原生的 3D 环境。意思就是，如果生成了一个下雨的街道，可以像在 Cyberpunk 2077 拿著手机在裡面走来走去，可以绕到房子后面看门牌，路边猫咪的细节，它是实体的并且有空间结构。怎麽做？首先使用图形学界最红「3D 高斯泼溅」（3D Gaussian Splatting, 3DGS)。传统的 3D 游戏是用三角形拼出来的，这通常需要繁琐的人工建模步骤，生成成本极高，后来出现了黑盒子的神经辐射场 (NeRF)。这是用神经网络算出来的黑盒，看不到裡面。但 Marble 用的这个高斯泼溅，就像是一位印象派画家在 3D 空气中「泼墨」。它在空间裡撒下成千上万个半透明的小云团（泼溅），这些云团有颜色、有方向，有纹理。远看时这些密密麻麻的云团就叠加成了一张清晰的物体，如猫咪，人物，远山。最神奇的是，它是「可编辑」的。NeRF 这一类的 3D 成像中，所有资料都混在黑盒中，想把画面裡的猫换成狗？不行。因為 AI 根本不知道哪裡是猫。但 Marble 因為是用一堆「小云团」组成的，你想拿走猫，就像在 Photoshop 关掉图层一样，把代表猫的那堆云团移除就好。这就是李飞飞说的「空间智慧」的第一步：不但能看，还要能动手改。但最让我吃惊的，就是 Marble 是使用 Transformers 架构哦！没错，就是那个 LLM 用的 Transformer。Transformer 為什麽和 GPU 最速配，最主要的原因就是他可以把所有文字序列都平行处理。换句话说，在 Transformer 的眼裡，文字不再有时间序列，大家都是同时存在的，因此 Transformer 架构天生就不是处理「序列资料」，而是处理「同时存在的资料」的。它其实是 3D 引擎！我胡说八道？如果你把 Position Encoding 拿掉，你就知道我在说什麽了。所以，Transformer 那种可以让所有元素同时互动的「注意力机制」，用来处理这种无序的 3D 粒子，反而比处理文字还要顺手又原生，这也是為什麽 World Labs 把身家性命都押在 Transformer 上来做 3D。听到这，你可能会担心：「哇，这运算量肯定大到爆炸吧？是不是要像黑神话悟空那样用顶级显卡才跑得动？」Marble 的结果就是让 5 年前的 iPhone 12/13 都能跑满 60 帧。使用了一种聪明的算法，把画面切成无数小方块，只运算你眼睛看得到的部分。如果你转头看不到背后，背后的世界就不渲染，这让手机也能跑出神兽级的 3D 场景。难道李飞飞他们这麽大费周章，只為了玩玩游戏或装修房子？这涉及到了一个非常大的革命，3D 物理世界的机器人的训练，这可以解决「资料饑荒」的问题。你想想，ChatGPT 之所以聪明，是因為它读完了网路上所有的书。但机器人很可怜，网路上没任何物理资料。举例来说，每个杯子的重量材质形状都不一样，為了训练机器人拿起杯子不捏碎也不能摔到地上，不可能真的机器人每天摔杯子练习吧？Marble 就是要给机器人造一个无穷无尽的物理虚拟世界。World Labs 提出了一种叫「物理蒸馏」（Physics Distillation）的黑科技，让 AI 透过模仿传统物理引擎来真正内化摩擦力与重力，而不只是画得像。在这个虚拟的平行宇宙裡，机器人可以疯狂试错，摔碎一百万个虚拟杯子，自驾车可以撞个 1000 亿次车祸来学会物理定律，练习好之后，把练好的大脑下载到现实世界的机器人身上。这就是所谓的「具身智慧」（Embodied AI）的终极形态。我们正站从文字虚拟世界的 LLM 走向物理世界 AI 的路上。现在的 AI 只懂文字或图形的 Token，但未来的 AI 透过 Marble 将会变成一个懂物理、空间、定律、能动手的真实物体。Sora, Veo 这种生成影片的功能，真的只会变在网路画画梗图和影片的玩具了。