我的对LLM在AD领域的理解:首先,传统VL端到端模型是可以做驾驶辅助/自动

啊小琪说汽车 2025-09-04 22:40:44

我的对 LLM在AD领域的理解:

首先,传统VL 端到端模型是可以做驾驶辅助/自动驾驶。

通过堆更广泛、高质量、长时序的驾驶视频素材;通过叠更大参量的模型。可以使得VL模型能覆盖99%、99.9%甚至99.99%的驾驶场景。

但是在工程落地中有非常多的难点,例如驾驶视频数据的搜集、长度对齐、数据匹配等等,而且VL的端到端模型往往只能接纳有限的几个维度信息。

而且在信息进入-VL模型-到输出轨迹,中间这里是一个相对黑盒的状态。

这里再次叠甲,VL模型可以做出非常非常优秀的驾驶辅助、自动驾驶系统

6D说的FSD就是真超级强者,而且控车全维度可以按着绝大多数AD打。

那么我们如何去解决,更多维度信息整合呢?

我们去探讨,人类驾驶车辆,我们虽然在大部分场景中用的都是本能反应【类似驾驶场景匹配的VL端到端模型】,所谓的肌肉记忆开车

但是,我们驾驶车辆同样用到了大量的非驾驶领域的知识、先验信息、语音信息等等。

特别是,在我们这个城市通勤场景中,其实需要大量的【非驾驶本能知识】调用去进行车辆驾驶的【高维决策】

举个几个例子:

我看到白色的类似网约车的车,突然停下就猜测可能要下课【要小心开门杀】

我看到的是一个城市特殊通行规则,要考虑到是否进行拉链式通勤、限行等等;

这些知识不仅仅是来自于【驾驶视频片段训练可以获得的】

因此用LLM,大语言模型这个基于文字为基础的,可以概括我们人类绝大多知识的模型,去帮助AD系统推理、理解高维决策。

并且让这个系统通过多模态编码成一种信息,整合推理并输出超过传统本能反应的高维决策,才是LLM最大的贡献。

这也是我坚持认为,语音控车、交互等等都是未来L4的形式,但是在现在本质上是一个白送的添头。

我们因为需要知识去帮助系统更好的理解这个世界真实运行规则,才能让AD更好的于人类交通世界协同运作。

胡思乱语,不当之处请批评指针~

0 阅读:0
啊小琪说汽车

啊小琪说汽车

感谢大家的关注