具身机器人的自由度比汽车要高得多,所以应用AI的难度也大得多。所以宇树王兴兴讲出自己的观点时,也会引起汽车行业的关注,特别是他认为VLA是“相对傻瓜式的架构”。
他的观点认为,具身机器人的两个方向可以关注:
第一,世界模型--让系统先在虚拟环境中预测未来,再做决策;
第二,视频生成模型--先生成一段“完成任务的视频”,再把动作翻译成实际执行的控制信号。
我感觉这两个模式,都有点像是人类“想象力” —— 先想出来,再去做。说到世界模式,能想到的就是蔚来。蔚来自己解读说:当世界模型打开语言输入时,它包含VLA的所有特征。
我认为实践出真知,我们不应该过早地判断哪个技术路线更好、更有潜力,而应该观察它在实践中的表现,既包括当下的表现,也要考虑将来的表现。
蔚来VLA