Posted in

再度跟风特斯拉,中国车企押注端到端_AI阅读总结 — 包阅AI

包阅导读总结

1. 端到端、智能驾驶、小鹏汽车、特斯拉、大模型

2. 小鹏汽车董事长何小鹏认为智驾进入端到端时代是洗牌,多家中国车企追随。端到端整合自动驾驶核心模块,考验大模型水平,能实现自我学习。但存在不稳定和“AI幻觉”等问题,实现端到端背后需强大算力支撑。

3.

– 端到端引领智驾新趋势

– 何小鹏考察后认为智驾进入端到端时代,小鹏加速推进相关技术

– 理想汽车李想提出类似方案,蔚来汽车也在探索

– 特斯拉率先引入端到端大模型技术

– 端到端技术的原理与优势

– 整合感知、决策和执行等核心模块

– 大模型能自我学习,减少工程师为Corner case写代码

– 使智驾能力进展大幅提升

– 端到端面临的问题

– 存在不稳定、新挑战、“AI幻觉”等

– 评估模型性能难度增加

– 并非完全确定和安全

– 端到端背后的算力支撑

– 特斯拉有强大算力资源

– 中国车企算力投入相对少,华为提供替代品增加竞争悬念

思维导图:

文章地址:https://mp.weixin.qq.com/s/QrWDrDH3JT5gAD87DIpnYQ

文章来源:mp.weixin.qq.com

作者:潘磊

发布时间:2024/8/13 3:10

语言:中文

总字数:3603字

预计阅读时间:15分钟

评分:80分

标签:智能驾驶,端到端技术,特斯拉,小鹏汽车,理想汽车


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

“今天L4公司都在痛苦地犹豫是否该转入端到端,我个人的建议是别犹豫,赶紧改,后面那个才是大家伙”。


这是小鹏汽车董事长何小鹏,最近从美国考察游历一番后,对智驾进入“端到端时代”的最新判断。


在大约两周前的小鹏汽车技术发布会上,何小鹏更是兴奋地宣布,2024年就是智能驾驶的拐点。


他认为,“大模型+端到端”已经把智驾能力进展从以前的按“年”计算,提升到按天计算。


换句话说,这就是对智驾领域的一次洗牌,要么跟上,要么出局。


何小鹏从特斯拉获得启发符合逻辑——事实上正是特斯拉FSD在去年率先搞出“端到端”技术方案,并把这个看上去晦涩难懂的术语变成了智驾圈的流行语。


所谓“端到端”,就是把之前与自动驾驶有关的感知、决策和执行等相对分散的核心模块整合在一起,从传感器端输入信号开始,中间经历一个AI大模型,再到输出端发出信号控制车辆。



这就及其考验那个能够搞定“感知决策执行一体化”的AI大模型的水平。


作为一个“学习系统”,贯通感知决策执行的AI大模型,能够通过从传感器获得的原始数据中不断“学习”,并自动生成人们想要的那种结果输出。


这被认为智能驾驶“拟人化”的开始。


在特斯拉FSD V12版本之前,这种智驾系统拥有和其他同类系统差不多的通病——比如在复杂路况中,智驾系统突如其来的刹车会带来一种明显的“机械感”,从而让用户恐慌。


但是到了引入端到端的V12版本后,这套系统看上去拥有了一些“博弈”能力,比如能够更加丝滑地应对加减速和转向控制。


而在这之前,智驾系统每遇到一个场景,就需要工程师专门通过代码给出解决方案,然后才能搞定一个所谓的Corner case。


FSD V12版本引入端到端后,相当于拥有了一定的自我学习能力,工程师无需再为无法预知、无法穷尽的Corner case逐个编写代码了,所以代码从30多万行缩减为仅有3000多行。
何小鹏说,他相信2025年就将是完全自动驾驶的“ChatGPT 时刻”。

“小鹏是全球唯二实现端到端大模型量产落地的车企”。


在7月底的“小鹏汽车AI智驾技术发布会”上,何小鹏表示,“端到端大模型”让小鹏智驾技术进步实现了前所未有的加速。“每2天迭代一次版本”。


此时距离小鹏汽车官宣智驾进入端到端时代仅2个月。


但看上去,小鹏正在加速把智驾系统从“全国都能开”,进化成“全国都好用”,即不限城市、不限路线、不限路况。


这是一个惊人的跃迁。


因为在这之前,智驾系统的PK,基本都是围绕“开城”来展开。


“开城”的本质是,车企的智驾技术人员在目标城市完成场景数据收集和填充,然后“灌进”智驾系统,从而实现城市NOA(领航辅助驾驶)。



但这种高阶辅助驾驶上限很低,很难上升到L3或者更高级别。


因为存在不少需要人类接管的场景,比如小区内部、收费站等。


解决这类问题,就需要工程师根据特定场景写代码,从而解决所谓的Corner case。


显而易见,这种场景无穷无尽。


何小鹏说,在这种规则下,智能驾驶再搞十年也看不到尽头。


但引入端到端和大模型之后,这个瓶颈迎刃而解。


小鹏为此调整了组织架构,以更加聚焦于端到端+大模型的组合。


跟何小鹏的看法类似还有理想汽车董事长兼CEO李想。


他在今年6月初的2024中国汽车重庆论坛上提出了一个问题,即人类开车为什么不涉及学习Corner case?


在他看来,如果不解决这个问题,那么自动驾驶团队每天干的活,就是靠人工去调试各种Corner case,而且会发现你放的人越多,Corner case就越多,距离实现真正的自动驾驶就越远。


他给出的方案也是端到端加上VLM视觉语言模型,以及一个生成式世界模型组成的全新自动驾驶技术架构。


李想表示,这是理想在过去一段时间内,最重要的一个技术突破。


基于此,理想汽车将会在今年三季度向所有用户正式推送全国无图NOA。


他还相信,无监督的L4级自动驾驶至少3年内就能实现。


理想也成立了“端到端自动驾驶”实体组织,据称整体规模超过200人。


蔚来汽车也把感知和规控团队合并为大模型团队,探索用端到端和世界大模型实现高阶智能驾驶。


梳理来看,这些变化都发生在今年年初特斯拉发布FSD V12版本之后,也意味着特斯拉率先引入的端到端大模型技术再次引领智驾新趋势。


另外,华为在去年9月就发布了“盘古汽车大模型”,可在数字孪生空间生成复杂场景样本,让自动驾驶学习训练周期从2周以上缩短到2天内。



再次陷入Corner case怪圈?


特斯拉FSD的最新版本为中国车企提供了有关端到端和大模型的启示,实现自动驾驶的路径近在眼前。


这让“摸着特斯拉的石头过河”,再次成为可能。


但其中的问题在于,特斯拉究竟是如何做到这一点的,却是一个不传之秘。


何小鹏坦承,大模型迭代过程中会出现“不稳定”现象。


在5月份,他也提到了有关“端到端”的不确定性。


他认为所有大模型上都有不确定因素,重要的是如何去构建你的控制器,就像控制刹车一样,构建针对黑盒的安全系统。


看上去即便是端到端,也在进入一个更加复杂化,甚至是自我束缚的囚徒困境。


这甚至已经从特斯拉CEO埃隆·马斯克处获得了证实。


6月中旬的特斯拉2024年年度股东大会上,马斯克承认FSD面临新的挑战。


他称,改进一个模型可能解决一个问题,但同时可能引入一个新问题。


看上去,这跟引入端到端之前的那种Corner case无法完全解决的情况很接近。


而且随着人类接管的减少,评估模型性能的难度在增加。


这是另一个悖论——接管减少表明性能优秀,但另一方面也表明随着模型变“大”,其更新也将会变慢,表现得不像一个能给自动驾驶带来颠覆性变革的路径。


而最近公布的一个交通事故表明,特斯拉的一台车在开启FSD模式下撞死了一个摩托车手。


就在7月底,Truist Securities分析师威廉·斯坦因在体验特斯拉FSD时险些撞车。



巧合的是,华为终端董事长、智能汽车解决方案BU董事长余承东近日也表示,FSD上限挺高,但下限也很低。


“华为工程师去测试(FSD),路上停着静止不动的白色货车或者绿色货车,都不减速直接撞过去了,可能识别成白云或者树木了”。


这种情况被称为“AI幻觉”,据称有30%的错误率。


另外,前图森未来创始人,现Bot.Auto创始人侯晓迪近期也针对端到端,发表了一些不一样的观点。


侯晓迪认为,端到端是一种新思路,但是否为最先进,目前尚无定论。


同时,端到端的“技术黑盒”具有不可解释性,无法带来确定的安全感。


基于此,端到端并非一个一头输入信息,另一头就能输出结果的“自动工厂”,还具有不确定性,不要过度神话。


极越CEO夏一平则认为,现在还没有100%的端到端,都是营销噱头。



端到端背后

是包括算力在内的体系PK


根据马斯克的说法,预计今年年底将会在中国和欧洲落地FSD。


其实在这之前,有关FSD将会成为智驾领域“鲶鱼”的说法就已经层出不穷。


但从中国主流车企对“端到端”的追随来看,FSD已经开始对中国智驾的技术路线产生深远影响。


这也再次验证了特斯拉的视觉方案更加接近“第一性原理”——正如李想所说,人类驾车就不涉及学习Corner case的问题。


因为人眼就类似于传感器,大脑作为神经网络对接收到的信号进行推理判断后,做出反应并执行。


车路云一体化,以及高精地图方案,也因此都有各自的短板。


到目前为止,特斯拉还未使用激光雷达。


对此余承东表示,特斯拉的优点在于车辆多、数据多,FSD做的不错。


但经过在美国和加拿大的测试对比后,他认为华为的体验略优一些。


“特斯拉没用激光雷达,我们用了,弥补了感知能力”。


目前华为备受关注的ADS3.0也是端到端“类人”智驾,采用的是GOD感知神经网络,以及 PDP(Prediction-Decision- Planning, 预测决策规控)决策规划网络,这被称为两段式端到端。


跟特斯拉FSD输入传感器数据,直接输出路径规划的一个模型相比,华为的“两段式”端到端区分了感知和规控,更容易定位,从而增加了可解释性。


但真正具有颠覆性的自动驾驶技术架构终局,就是生成式端到端大模型。


这对于包括算力在内的基础设施来说,是一个极大的考验。


对于特斯拉来说,逡巡多年才实现端到端多模块融合的背后,是其DOJO超算中心高达35000块英伟达H100GPU的算力资源。



根据马斯克的说法,到今年年底特斯拉将拥有8.5万块英伟达H100GPU用于训练人工智能。


换句话说,特斯拉FSD端到端的背后,是一个巨型体系在支撑。


何小鹏表示,他已经在AI训练上投入了35亿费用。


但作为对比,马斯克声称今年将花费100亿美元用于AI的训练和推理,光是向英伟达购买AI芯片就要花费30–40亿美元。


他甚至表示,任何支出达不到每年100亿美元水平或者无法高效部署的公司,都无法在市场上竞争。


按他的标准,没有任何一家中国车企能够跟特斯拉竞争。


这很大程度上属于事实——中国车企甚至连H100GPU都无法买到。


华为显然能够提供一些替代品,这也为未来的自动驾驶时代竞争提供了足够的悬念。