在自动驾驶领域,长尾问题指那些发生概率低但种类繁多的边缘场景,如极端天气、罕见交通标志、突发障碍物等。这些场景虽不常见,却占自动驾驶事故的很大比例,且会导致驾驶员接管率急剧上升,成为实现完全自动驾驶的“最后一公里”障碍。端到端大模型通过整合感知、决策和控制环节,直接将传感器输入映射为驾驶动作,具备解决长尾问题的独特优势,其突破路径主要体现在以下方面:
长尾问题的核心挑战在于数据稀缺性。罕见场景的数据量有限,且收集成本高、风险大。端到端大模型通过以下方式突破数据瓶颈:
合成数据生成边缘场景
特斯拉等企业利用合成数据技术生成边缘场景,扩充数据集。例如,通过模拟气球、透明薄膜等软性物体在路中央的场景,训练模型识别并合理应对。合成数据的优势在于可对场景进行多维度控制,生成现实中难以采集的罕见案例,且成本低、可扩展性强。
真实数据与仿真数据混合训练
在真实数据中添加不同比例的虚拟数据,通过混合训练提升模型泛化能力。例如,NVIDIA提出“模仿训练”战略,在模拟环境中重现真实世界中的系统故障案例,并将其用作训练数据,重复此循环直到模型性能收敛。
人在环(HITL)测试收集失效数据
通过沉浸式仿真平台(如CAVE)主动收集模型失效时的人类接管数据。例如,同济大学CoReVLA框架在CAVE平台中构建“雨天突发静止故障车”场景,当模型出现死锁或碰撞风险时,系统切换至回放模式,驾驶员接管并修正行为。每一次接管都会被记录为结构化样本,包含历史图像输入、驾驶员视觉注意力、控制动作等,用于后续优化。
传统端到端模型易受数据分布偏差影响,在长尾场景中表现不佳。端到端大模型通过以下方式优化决策逻辑:
因果链推理机制
以英伟达Alpamayo-R1为代表的视觉-语言-动作(VLA)模型,通过结构化因果链将驾驶决策拆解为“观测因素→推理逻辑→动作输出”的闭环。例如,面对施工占道场景,模型可生成“路障遮挡车道→前车绕行轨迹安全→执行横向避让”的可解释决策链,显著提升复杂场景泛化能力。实验显示,其在极端长尾场景下的规划精度提升12%,事故率降低35%。
直接偏好优化(DPO)
DPO无需手动设计奖励函数,可直接从离线人类演示数据中学习,适配长尾场景的稀疏数据特性。例如,CoReVLA框架通过DPO优化模型行为,在“雨天突发静止故障车”场景中,优化后的模型提前识别风险并主动变道避让,成功避免碰撞。
持续学习双阶段框架
CoReVLA提出“数据收集(Collect)-行为优化(Refine)”双阶段框架,通过人在环测试收集长尾场景数据,再通过DPO对齐人类偏好,形成持续学习闭环。实验表明,该框架在Bench2Drive基准测试中,驾驶分数(DS)达到72.18,成功率(SR)达到50%,较次优模型分别提升7.96和15%,且具备跨场景泛化能力。
长尾场景的复杂性要求模型具备多维度感知和推理能力。端到端大模型通过以下方式提升鲁棒性:
多传感器融合
结合激光雷达、摄像头、毫米波雷达等多传感器数据,提升罕见场景下的识别和决策准确性。例如,轻舟智航的安全端到端大模型采用激光雷达与视觉融合的感知方案,在夜间等复杂场景下表现优异。
视觉-语言-动作(VLA)模型
VLA模型模仿人类从场景理解到决策的流程,在模糊或罕见场景中展现出更强的可解释性。例如,CoReVLA框架通过整合LingoQA、BDD、HAD三个开源数据集,形成70GB领域专用数据,构建思维链(CoT)格式的结构化QA对,提升模型场景认知和安全驾驶策略学习能力。
规则兜底与数据驱动双轨系统
地平线提出“数据驱动内核+规则兜底”双轨系统,在数据稀疏场景调用工程师预置规则。例如,突发道路塌陷时,先激活规则库紧急制动,再通过强化学习迭代新策略。
端到端大模型已在量产车型中实现落地,并通过场景渐进策略逐步解决长尾问题:
量产车型应用
商用车场景先行
商用车应用场景较为简单,交通环境和驾驶场景较为单一,易于形成商业化闭环。例如,零一汽车计划于2025年实现端到端自动驾驶系统量产,2026年实现高阶自动驾驶的大规模商业化运营,从矿区、港口等封闭式场景逐步扩展到全开放式区域。
法规与标准支持
自动驾驶法规和行业标准体系的建设为端到端大模型的产业化提供了重要保障。例如,中国工信部颁发L3准入许可,明确系统激活状态下车企承担事故责任,为长尾问题提供真实反馈场景。