大模型，重构自动驾驶

文｜刘俊宏

编｜王一粟

大模型如何重构自动驾驶？答案已经逐渐露出水面。

“在大数据、大模型为特征，以数据驱动为开发模式的自动驾驶3.0时代，自动驾驶大模型将在车端、云端上实现一个统一的端到端的平台管理。”毫末智行CEO顾维灏在近日的HAOMO AI DAY上表示。

大模型对自动驾驶的改变，下至感知、认知、数据标注等的底层技术框架，上至对之前技术方案的模型剪枝、蒸馏。自动驾驶在这个过程中，也变得“越来越懂”我们身处的真实世界。

当前，随着自动驾驶技术的进步，预计将来也会有越来越多的量产车得以落地。据工信部的数据，当前乘用车市场L2及以上智能驾驶渗透率已达42.4%，预计到2025年将达到70%，并普及到10～20万的主流车型上。

面对智能汽车产品端的放量和技术普及的需求，市场正在呼唤着，更具性价比的成熟智能驾驶方案。此前昂贵的智能驾驶产品，正在迎来一个全新的“千元级”机遇。

而这也意味着，拿到更多智能驾驶订单的玩家，将积累更多的车型行驶数据。进而转化成迭代速度更快的数据飞轮，反哺到场上的自动驾驶能力。

大模型，重塑了自动驾驶，也即将揭开自动驾驶降本大战的序幕。

大模型正在重构自动驾驶

“在自动驾驶3.0阶段，自动驾驶开发呈现以大数据、大模型、大算力为核心特征，以数据驱动为开发的模式。”对于大模型重塑后的智能驾驶，顾维灏如此解释道。

首先，在数据的训练上，自动驾驶原本的训练方式是使用人工标注的数据去训练，但引入大模型之后，已经可以使用自动化的标注技术来大规模、自动化地标注4D Clips（一段时间内，所有传感器接受的数据信息），并且将大模型的训练从有监督训练升级到了自监督训练。

不仅如此，大模型还可以利用生成式AI的能力，自动生成视频来加强训练。通过构建4D表征空间，使得CV Backbone（提取视觉输入图像信息）能够学到三维的几何结构、图片纹理、时序信息等全面的物理世界信息，相当于把整个世界装入到神经网络当中。

于是，大模型解决了之前人工智能最被人戏谑的“有多少人工就有多少智能”的问题，自动化的数据标注和训练，让自动驾驶成为了一台“永动机”。

接下来，在足够的数据驱动下，自动驾驶的开发模式也随之改变。

此前的自动驾驶研发主要由任务驱动。开发过程主要基于解决特定任务所采集的小数据，构建小模型来完成。一个具体需求，对应一个具体功能，表面上看似一个个功能开发迅速，汽车智驾的场景在一个个被“攻关”。但实际上这种开发模式只能以需求为导向，在特定问题的限制下，难以穷尽真实世界之广袤，于是各种corner case 无法解决，自动驾驶也就难以真正落地。

在技术框架上，自动驾驶3.0阶段利用云端实现感知和认知大模型能力进行突破。

原本在车端的各类小模型，逐步统一到感知和认知模型中，完成车端智驾系统整合到一个完整的大模型中去。同时在云端，大模型通过剪枝、蒸馏等方式逐步提升车端的感知能力。在通讯环境好的地方，大模型甚至可以通过车云协同的方式实现远程控车。最终实现，在车端和云端上端到端的自动驾驶大模型。

从技术框架层面，将大模型引入自动驾驶的效果，我们可以参考特斯拉的表现。2020年，特斯拉引入BEV+Transformer（BEVFormer），取代上一代2D+CNN算法。

在Transformer的注意力（Attention）机制下，特斯拉增强了模型对全局的理解能力，降低了来自不同传感器数据融合的难度。实现支持汽车生成BEV（鸟瞰图），让汽车了解周围环境就像是“开天眼”一般顺畅。

汽车能够更全面地看到世界，是感知大模型的功劳。

以毫末的方案为例。在对真实物理世界的学习中，毫末使用了NeRF（三维重建）技术整合，将真实世界建模到三维空间，再加上时序形成4D向量空间。

在此基础上，通过引入开源的图文多模态大模型，实现4D向量空间到语义空间的对齐。利用图文多模态大模型对画面的描述能力，自动驾驶获得了跟人类一样“识别万物”的能力。

在GPT-4V最新的测试中，将下面的图片直接输入给ChatGPT，就能像人类一样，精准的描述出图片环境中的驾驶策略。

接下来，汽车想要“动”起来，还需要认知大模型的能力，才能给出合适的指令。

在语义感知大模型构建的“识别万物”能力的基础上，毫末通过构建驾驶语言（Drive Language）来描述驾驶环境和驾驶意图，再结合导航引导信息以及自车历史动作，并借助外部大语言模型LLM的海量知识来辅助给出驾驶解释和驾驶建议。

大语言模型LLM的意义，在于将世界知识引入到驾驶策略中来。当自动驾驶认知决策获得了人类社会的常识和推理能力（世界知识），将大幅度提升自动驾驶策略的可解释性和泛化性。

如此一来，在通用认知大模型和通用感知大模型的帮助下，自动驾驶形成了“看得清”、“看得懂”，还“知道接下来怎么做”的能力。

在引入大模型两年后，2022年特斯拉在算法中引入时序网络，从而将BEV“全景地图”升级为占用网络（occupancy Network）。以BEV“看到”的道路上，不再分析路上“有什么”，以判断汽车能否通过的方式，从而决策汽车下一步“走还是停”。

直到2023年8月，特斯拉实现了依靠车载摄像头和神经网络识别道路和交通情况，端到端的自动驾驶系统（FSD Beta V12）。

但即使如此，大模型与自动驾驶的深度结合也才刚刚开始，在感知和认知的能力上依然有很大的提升空间。

三个能力升级：
纯视觉、更广、更小

在结合多模态大模型之后，实际的效果怎么样呢？

在测试的实验结果中，毫末在纯视觉泊车、城市NOH（等同于城市领航辅助驾驶）、和小目标障碍物检测上取得了明显的进展。

这意味着，在大模型加入后，自动驾驶在能力上，出现了质的提升。

首先是在泊车环境中，验证了纯视觉感知实现功能的可行性。

毫末采用了四个视野宽广的鱼眼摄像头作为其视觉BEV的感知基础，获取汽车周围360°的画面。然后对图像进行虚拟相机转换，通过backbone技术提取出画面的视觉特征，并映射到BEV空间。在BEV空间下，完成对障碍物的轮廓边界进行识别和测量。从而识别墙、柱子、车辆等各类型的边界轮廓，实现360°的全视野动态感知。15米内精度可以达到30cm，2米内精度可以高于10cm。