李想:L4 级别自动驾驶三年内可实现,理想汽车三季度推无图 NOA
IT 之家 6 月 8 日消息,今日,理想汽车董事长兼 CEO 李想在 2024 中国汽车重庆论坛上透露,理想汽车将在今年第三季度推出全国无图 NOA。
与此同时,理想汽车还将同步向测试用户推出通过 300 万 Clips (预训练模型)训练出来的端到端 + VLM (视觉语言模型)的监督型自动驾驶体系。今年年底到明年年初,将推出超过 1000 万 Clips 训练的监督型自动驾驶体系。
基于这一体系,李想认为,随着技术演进和算力增强,无监督 L4 级别自动驾驶将在三年内实现。
IT 之家附李想演讲全文:
感谢王侠会长和重庆市,给我这样一个向大家学习和交流的机会。我今天分享我们在过去半年多的时间做的一个重要技术的突破,是关于自动驾驶的技术的突破。
我这里强调一下,我讲的是 4 个字 " 自动驾驶 ",不是 " 智能驾驶 ",也不是 " 辅助驾驶 ",这是最关键的。公司内部从去年 9 月份开始来思考一个问题,并专门建立了一个用于自动驾驶研究的团队,一个最简单的问题,人类开车为什么不涉及学习 corner case ( 边界情况或极端情况 ) 。如果不解决这个问题,所有自动驾驶团队每天干的活都是靠人工去调试各种各样的 corner case,而且人越多,corner case 越多,离真正的自动驾驶就越遥远。
最核心的一个原因,当人工智能技术不断发展的时候,其实人类开车的方式不是过去这么多年用的自动驾驶研发的一个方式,这是一个根本的不同。因为人开车没那么辛苦,没那么累,不需要养几千人的团队去搞 corner case。而且团队越多,corner case 就越多。所以我们从理论和技术的两个角度研究,人类到底怎么开车,新的技术如何解决自动驾驶开车的问题。
首先从理论的角度,我们先是从一本书里得到了启示,叫作《思考快与慢》。
这本书讲述了日常的时候,大脑在工作的时候,分为系统 1 和系统 2。系统 1 来处理一些直觉、快速响应的事情,其实就像我们在开车,很多时候我们在开车,脑子在想别的事情,但我们仍然在处理路上的各种事情,这就意味着我们用系统 1 在工作,并不是大脑不在工作,是大脑以一种独有的低能耗的方式工作。当去到一个复杂的路段,比如十字路口或者遇到一个水坑,这时候调用大脑系统 2 工作,处理复杂逻辑推演的能力,但是对大脑的消耗比较大,所以大家不会一直用系统 2 的方式来开车。解决各种复杂路况,解决泛化的问题、未知的问题,大脑会启用系统 2 工作。正常我们开车 95% 的时间使用系统 1,5% 的时间使用系统 2,所以人脑每天不需要每天的功耗,人不需要学习这些就学会开车。
如果这样的人类工作方式,自动驾驶应该怎么工作,什么是自动驾驶的系统 1,什么是自动驾驶的系统 2?随着对各种技术的研究,自动驾驶系统 1,今天很多自动驾驶团队都在做的端到端这样一个技术。端到端,就意味着我们把完整的训练频段放进来,最后结果是输入直接产出输出,不像过往一个感知的模块,一个规划的模块,一个决策的模块,一个执行的模块。这样效率更高。但是它的挑战也来了,各种人类规则在里面也不发挥作用了。
挑战有三个方面:一是要有真正做端到端包括这方面数据训练的人才,二是需要真正高质量的数据,三是需要足够多的算力。因为端到端对于算力的需求,和以往变得不一样了。在端到端方面,我们大概放入了 100 万 clips,用于端到端的训练,大概一个月十轮左右的训练,基本就可以完成一个无图 NOA 的上限水平。但是面对中国的复杂路况,只有端到端不够,我们要思考什么是系统 2。系统 2 的启发在于什么呢?在于解决各种各样的 corner case 和各种泛化的问题,人类并不是通过学习 corner case 来开车的。
最明显的一个案例和启发是什么呢?我的爱人刚学会开车,连续好多年都不停地刮蹭。你和她分析下一次怎么不刮蹭,还是没有用,还是刮蹭。我就分析是不是买的车太大,换一辆小的车,她仍然刮蹭,怎么说都会刮蹭。这时我们会发现学习 corner case 没有用,我们能不能通过提升能力的方式?当时我做了挺重要的一个判断,给我爱人报宝马驾驶培训的初级班。宝马驾驶培训初级班一整天,通过各种各样的方式,只教了两个:一是无论在赛道上过弯还是绕桩还是处于环形路面的时候,你在打转向之前眼睛看向哪里?不是看你通过的路口,而是看你接下来要去的地方。用各种各样的方式,教我们开车要看路。另外宝马驾驶培训班教了另外一个能力,各种复杂场景里如何把刹车踩到底,包括湿滑的路面、转弯的路面,一半钢板一半道路的路面。宝马培训班就教了两个事情:一是教你看路的能力,二是教你刹车的能力,只经过这么一天的训练,我爱人就彻底和刮蹭告别了。所以在接下来的十几年里,没有出现过任何的刮蹭。所以这是人类学习的一个方式。
我们在考虑如何把这样能力给到车上,很重要的一个技术是 VLM,即视觉语言模型,为什么不是大语言模型?因为没有办法把一个大语言模型在云端使用,这个响应速度就会车毁人亡了。所以我们还是思考如何把一个视觉大语言模型进行足够压缩,最后放到车上去。它能够在面对一个没有红绿灯的左转路口提前作出预判,来知道我这个路口如何进行特殊复杂的处理。
还有另外一个重要的功能,就是告别高清地图。因为视觉的语言模型还有一个最重要的功能,是能够像人类一样去读懂导航地图。包含导航地图的横向、纵向、速度、时间,包括红绿灯,哪怕车辆的遮挡红绿灯也不再成为问题。我们会发现可以有效通过视觉语言模型解决系统 2 的问题,一方面为端到端进行一个兜底,另一方面解决各种各样泛化的问题。我们认为最早在今年年底,最晚在明年上半年,真正有监督的 L3 自动驾驶就就可以批量向用户交付了,而不是做实验了。
解决这两个问题还有第三个问题。因为端到端是黑盒子,VLM 也是黑盒子,AI 最大的区别是能力,而过去的编程体系最重要是功能。功能要通过实验和测试来验证的,而能力怎么拿测试和实验验证,是不可能的。所以这时候一个新的挑战,我们用什么样的技术方式验证能力,这时候我们又找到一个新的方式,主要的原理来自 Sora,我们来构建一个小型的视觉模型,拿这个视觉模型让我们的车在里面考试。这样我们模拟人的一套真正工作原理开始呈现了,端到端承载人的系统 1,VLM 来承载人的系统 2。系统 1 来解决所有正常自动驾驶的能力,系统 2 来解决兜底和泛化的能力,并应用生成式的小的视觉模型来进行考试。这是我们在过去一段时间里做的最重要的一个技术性突破,而且我们的研究团队已经完全通过了正常的研究验证。
接下来会怎么样呢?我们在三季度正式推全国无图 NOA 的时候,也会向测试用户通过 300 万 clips 训练出来的端到端 + VLM 的一套监督型自动驾驶体系。最早会在今年的年底,最晚明年年初,我们会推出超过 1000 万 clips 训练的端到端 + VLM 的带有监督的自动驾驶体系。我们认为端到端 + VLM + 生成式的验证系统,也会是未来整个物理世界机器人最重要技术架构和技术体系。
接下来一段时间,包含最近本月还有下月还有几个关键 AI 方面的技术论坛里,我们技术研究的同事也会向整个行业来分享我们对这方面的研究、治理原理和实际结果,把我们进行的一些探索,能够和同行进行有效地分享。另一方面,就像刚才讲的,我们会在 7 月份,以及最早年底、最晚明年年初,把这样的技术带给用户。通过这样的技术,可以确定地坚信一件事情,在现有的计算平台上,带有监督 L3 级别的自动驾驶可以百分之百实现。并且随着这套技术的演进、算力增强,我认为 L4 级别无监督的自动驾驶在三年内一定能够实现。谢谢大家!