最晚明年上半年落地L3：理想端到端自动驾驶，性能大幅提升

540次阅读

没有评论

共计 1953 个字符，预计需要花费 5 分钟才能阅读完成。

最近一段时间，生成式 AI 技术兴起，众多造车新势力都在探索视觉语言模型与世界模型的新方法，端到端的智能驾驶新技术似乎成为了共同的研究方向。

上个月，理想汽车发布了端到端 + VLM 视觉语言模型 + 世界模型的第三代自动驾驶技术架构。此架构已推送千人内测，将智能驾驶行为拟人化，提高了 AI 的信息处理效率，增强了对复杂路况的理解和应对能力。

李想曾在公开的分享中表示，面对大部分算法难以识别和处理的罕见驾驶环境，VLM（Visual Language Model）即视觉语言模型可以系统地提升自动驾驶的能力，这种方法从理论上实现了突破。

新一代的自动驾驶系统大幅提高了能力上限 —— 让 AI 可以应对很多过去难以解决的情况，也降低了门槛 —— 减少了技术研发团队规模的需求，有望让更多人在不久的将来获得大幅提升的体验。

这一套自动驾驶技术架构受诺贝尔奖得主丹尼尔・卡尼曼（Daniel Kahneman）快慢系统理论的启发，在自动驾驶领域模拟人类的思考和决策过程也需要「快系统」与「慢系统」进行协同。其中：

・快系统（系统 1）善于处理简单任务，是人类基于经验和习惯形成的直觉；在自动驾驶中以端到端大模型构成，包含感知与规划，足以应对驾驶车辆时 95% 的常规场景。

・慢系统（系统 2）是人类通过更深入的理解与学习形成的逻辑推理、复杂分析和计算能力；在自动驾驶系统中主要是 VLM 模型，它在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约 5% 场景。

上周，在理想汽车北京研发总部举行的活动中，理想汽车智能驾驶副总裁郎咸朋强调，目前理想的智能驾驶已经全面切入端到端 + 大模型方案，这让车辆已能够理解复杂路况和交通规则。

「不论端到端还是传统感知决策模型，都需要大量数据进行训练。一个潜在问题是，如果遇到没见过的场景，系统就不能很好的工作，」郎咸朋表示。「我们正在探索让车辆像人一样思考和决策的能力。」

理想汽车北京总部。

自去年下半年起，理想开始调整战略，转换轨道。今年 2 月，在清华大学交叉信息研究院、理想汽车提交的 DriveVLM 论文中，研究人员应用最近生成式 AI 领域兴起的视觉语言模型（VLM），在视觉理解和推理方面表现出了非凡的能力。

在业界，这是第一个提出自动驾驶快慢系统的工作，其方法充分结合了主流自动驾驶 pipeline 和具备逻辑思考的大模型 pipeline，并第一个完成了端测部署的大模型工作（基于英伟达 Orin 平台）。

DriveVLM 包含一个 Chain-of-Though (CoT) 流程，具有三个关键模块：场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境，并识别场景中的关键对象；场景分析模块深入研究关键对象的特征及其对自我车辆的影响；分层规划模块从元动作和决策描述到路径点逐步制定计划。

这些模块分别对应于传统自动驾驶系统流程的感知 – 预测 – 规划流程三部分组件，不同之处在于它们处理对象感知、意图级预测和任务级规划上的能力 —— 这些在过去是极富挑战性的。

理想表示，在实践中这套模型理论上可以识别路面平整度、光线等环境信息，并且可以像人一样真正读懂导航地图。为验证上述技术在长尾场景上的有效性，理想将拆解真实环境数据，并利用生成模型补充新的视角，自定义改变天气、时间、车流等条件，实现场景的延伸泛化。通过这种类似无限的环境生成，理想可以对其自动驾驶系统进行充分的检验以及迭代。

在实际工作中，理想汽车的两套系统一直实时运行。其中端到端的模型较小，帧率较高；VLM 模型规模参数量较大（22 亿参数），帧数较低。在一些以往智能驾驶系统无法进行决策的情况，如高速收费站选择 ETC / 人工入口时，VLM 发挥作用，把决策结果和参考的轨迹交给端到端模型，在进一步推理后采用信息。

自动驾驶进入城市场景之后，信息处理的复杂度瞬间提升了几个数量级。在理想的工程师们看来，端到端方法一定意义上成为了技术的分水岭，标志着真正使用 AI 的开始。

新一代 AI 模型的另一个意义在于，它也可以担任不断给出考题的出题人。

截至今年 6 月，理想的整体保有量已经超过 80 万台。在可观的保有量里，理想筛选出了 3% 达到专车司机标准的用户，把这些用户的数据输入到模型中作为「真题」，再通过这些数据结合世界模型生成「模拟题」。在不断的训练、验证之后，整个系统的能力上限获得了提高，迭代速度也加快了。

由于是将 VLM 等模型部署在车端，新一代系统面临着很大的算力挑战。理想智能驾驶技术研发负责人贾鹏表示，在实际使用的过程中，AI 模型的参数量被保持在了最优的情况，同时为了将 AI 的决策时延提升到能够保证安全的水平，工程团队进行了一系列优化。

由于特斯拉 FSD 即将进入国内，智能驾驶领域预计很快将会进入全新的竞争阶段。理想汽车的下一个目标，是最快今年下半年，最晚明天上半年实现端到端 + VLM 的自动驾驶量产交付。

正文完