满屏都是蓝山的VLA宣传,有的“车评人”连VLA几个字母都说不利索,所以什么是V

张济看汽车啊 2025-12-21 22:21:24

满屏都是蓝山的VLA宣传,有的“车评人”连VLA几个字母都说不利索,所以什么是VLA,为啥大家都逐渐从VLA转向VLA+世界模型了? 首先,什么是VLA(Vision-Language-Action,视觉-语言-动作)模型?VLA模型是一种端到端的多模态神经网络架构,直接将视觉输入(如摄像头图像或视频)与自然语言指令融合,输出机器人或车辆可执行的动作序列(如关节角度、轨迹点、控制信号等)。其目标是实现“看懂—听懂—动手”的一体化闭环,强调语义理解与人机交互。 然后,什么是世界模型?世界大模型致力于构建一个内部的“虚拟世界”,通过学习物理规律、因果关系和时空演化机制,在不依赖外部指令的情况下模拟环境未来状态,并据此做出决策。其核心是“预测—推理—规划”,目标是让AI具备类似人类的“物理直觉”和长期推演能力。 目前业界已普遍认识到,单一模型难以满足通用具身智能的全部需求。因此,融合路线成为主流 1. 地平线提出“VLA with World Model”分阶段演进:短期用VLA优化体验,长期引入世界模型提升泛化 2. 小米汽车同时投入VLA与世界模型,前者提升逻辑推理与解释能力,后者提供高保真仿真训练素材 3. 小鹏VLA 2.0虽保留名称,但已弱化语言主导地位,将语言降级为与视觉并行的输入源,向世界模型的高带宽认知靠拢 4. 理想汽车也在 VLA 的基础上,积极引入并融合“世界模型”(World Model)技术,形成一种“VLA + 世界模型”的混合架构

0 阅读:1
张济看汽车啊

张济看汽车啊

感谢大家的关注