> 自媒体 > 科技科学 > 特斯拉再添一把火,「世界模型」如何重塑自动驾驶?
特斯拉再添一把火,「世界模型」如何重塑自动驾驶?
来源:钛媒体APP
2025-12-14 22:08:19
143
管理

文 | HiEV大蒜粒车研所,作者 | 肖恩,编辑 | 德新

两年一度的计算机视觉顶会ICCV 10月在美国檀香山闭幕,今年的最佳论文颁给了卡内基梅隆大学团队的BrickGPT,一种能从文本描述直接生成物理结构稳定并可实际搭建的积木机构模型,这个成果展示了生成式AI在物理世界应用的潜力。

对自动驾驶从业者而言,这次会议上还有一个更令人瞩目的消息——特斯拉AI部门副总裁Ashok Elluswamy在“基础模型蒸馏与自动驾驶”论坛中,分享了FSD的最新进展。

自2022年在AI Day上分享了占用格栅网络之后,特斯拉几乎没有在任何公开场合透露过FSD的内幕,特别是进入到端到端架构之后,FSD的表现进步神速,但是特斯拉对背后的技术始终讳莫如深。

Elluswamy此次分享给出了关键信息:系统以视频为主的多模态输入进入端到端模型,直接输出控制指令,感知 - 预测 - 决策 - 控制在同一神经网络中耦合回传;这一整体框架与近期热议的“世界模型”思想高度相似。同时,在仿真侧,世界模型被用于生成对抗性场景,以实现闭环评测与迭代。

在此之前,围绕VLA与世界模型的路线分歧已争论不休,特斯拉的最新表态无疑又添一把火。无论最终范式如何定型,能够“想象未来”的世界模型,几乎注定将成为当下自动驾驶技术演进的关键支点。

一、特斯拉FSD:端到端基础模型与世界模型的融合

Elluswamy以“构建未来的自动化”为主题,首先阐述了FSD最近的一些进展,包括Robotaxi的上线以及实现了从工厂到交付中心的全程自动驾驶。

随后,他介绍了特斯拉的端到端架构,多摄像头图像、导航地图、车辆运动信息和音频信号等输入到一个端到端的神经网络内,这个模型经过海量的数据训练,支持长序列的输入,最后直接输出控制信号。

这部分和国内的技术方向基本一致,唯一的区别是增加了音频信号的输入。

为什么要使用端到端的架构,他给出了几点理由:

人类的驾驶行为很难用函数去描述,规则算法很容易顾此失彼;

传统的感知 - 规划 - 控制的结构会有大量的信息损失;

端到端的扩展性更强,更适合解决长尾问题;

时延稳定;

不需要依赖人类的经验,而是依靠算力和数据;

如果要构建一套出色的端到端系统,会遇到什么困难?Elluswamy提到了三大难题:

维度灾难

FSD需要处理高帧率、高分辨率、长时上下文的多模态输入:在以“5×5 像素块”为输入token的假设下,仅视觉就相当于7个摄像头×36 FPS×500万像素×30秒;同时还要结合未来数英里的导航地图与路径、100 Hz的速度/IMU/里程计等运动学数据,以及48kHz的音频数据。综合起来约有20亿个token,如果直接输入到Transformer,token数量会在时间窗内爆炸,无法满足车端的时延要求。

特斯拉的做法是利用海量的车队数据,从中总结出“关键token”,通过稀疏化和聚合保留最有用的信息,可在不显著影响精度的情况下大幅降低推理的时延。

同时,特斯拉利用数据引擎从中抽取高质量的数据样本用于训练,让系统能在各种极端或罕见场景中实现出色的泛化能力。

可解释性与安全验证

为了避免“黑箱”AI,特斯拉在车端模型中加入了可解释的中间输出,既有全景分割和3D占据网络,也有基于三维高斯渲染的场景重建和语言化输出,从而辅助工程师审视推理过程。

图片来源:特斯拉

尽管特斯拉并未在分享中明确使用“世界模型”这一称呼,但从其神经世界模拟器的能力与用法来看,它本质上就是一个极其强大的世界模型。

与传统云端世界模型不同,特斯拉的系统不仅具备高保真场景生成能力,更关键的是,它能够在给定候选动作的条件下,预测未来几秒内的世界演化,从而实现决策前瞻与安全验证。

模型不再只是“生成环境”,而是能“想象并评估行动结果”的因果预测系统。

从特斯拉将“预测未来几秒的世界演化”作为决策前瞻核心这一点出发,车端基础模型很可能走的也是世界模型路线:在车端进行实时的动作条件未来预测,在云端以神经世界模拟器进行大规模场景重现与回归验证,两者在目标与表征层面高度对齐,从而形成训练—评估—上线的一体化闭环。

二、何为世界模型?

端到端架构能为自动驾驶带来更高的上限,这已经是行业的共识。但是如何在端到端的框架下让自动驾驶达到甚至超越人类的驾驶水平,实现真正的无人驾驶,目前还没有一个明确的方向,在多种技术路线中,世界模型无疑是其中重要的一支。

图片来源:蔚来

蔚来在云端开发了NSim作为生成式神经模拟器,NWM基于真实视频进行三维重建后,进入NSim进行可编辑的场景分解、深度与法向量检查、视角任意切换,并把NWM的推演轨迹与NSim的仿真结果对齐比对,从“唯一真实轨迹的回放评测”升级为“海量平行世界的对照评测”,以此形成数据闭环和针对性对抗场景的生成。再结合蔚来的“群体智能”源源不断的收集真实世界中的长尾场景,形成双轮驱动,加速模型迭代。

NWM的首个版本已于今年6月推送,在主动安全方面新增3大功能:

驾驶员失能处置

在高速/快速路场景,监测到驾驶员无意识后,车辆缓慢减速并变道至最右侧应急车道,开启双闪 SOS主动介入,由“车道内安全停车”升级为“自主安全靠边”,显著降低在车道内停车带来的追尾风险。

追尾预防与保护(首次将大模型用于被追尾场景)

在0–150km/h 范围内对后向潜在碰撞进行警示;当碰撞不可避免时,系统在500ms内完成从感知决策到制动建压,最大可将被动前移距离降低93%,减少二次事故风险。

通用障碍物预警增强

在转弯、变道靠边等动作中,对抬杆/护墙/隔离栅/路沿等多类型障碍均可响应,减少低速靠边剐蹭、车库盘楼剐蹭等常见事故。

高速领航新增了ETC场景智能通行和“智能驾享模式”(行车风格更稳健,跟车/变道更平顺、更强的防御性驾驶,必要时可自主闪灯/鸣笛提醒周边车辆)。

城区点到点领航新增2大功能:

车位收藏:停车后可收藏画线车位,下次出发或驶入时实现无间断全域领航;若被占用,系统自动寻找临近空位临时泊入。

停车场自主寻路:无需地图/导航/记忆路线,可听懂自然语义指令、识别标识与文字,实现跨区/跨楼层寻找出口或楼栋门口。这是NWM认知—理解—推理能力在复杂微结构空间里的标志性落地。

智能泊车更新为全模型化泊车辅助,360°全向车位识别、车位显示范围×4,可在任意位置发起泊入指令并长距离漫游泊车,在不同车位间自动腾挪切换;只要不被墙体完全阻隔,就能实现“可见即可选、可选即可泊”。

NWM的成功量产以及对智驾功能的全面升级,体现了世界模型在车端巨大的潜力。

华为WEWA 架构

在围绕世界模型的技术路线争论中,作为国内智驾领域的”带头大哥“,华为给出的答案是“WA(World‑Action)”——一种强调直接感知到控制的世界模型路线。

图片来源:华为

华为智能汽车解决方案BU总裁靳玉志公开表示,公司不会追随VLA的潮流,而是坚持以传感器信号直接驱动动作的世界‑行动模型。

在华为看来,VLA利用大语言模型将视频转化为“语言 token”再生成控制命令,看似是捷径,实则不能提供真正的自主能力;只有跳过语言层,直接从视觉、声音等多模态感知信息生成驾驶指令,才能在空间感知和实时性上满足高级自动驾驶要求。

华为的ADS 4平台基于WA原则进一步演化出 WEWA(World Engine World Action)架构:

World Engine(云端世界引擎)在云端通过海量仿真与实车数据训练世界模型,并生成用于升级的模型参数。

World Action(车端世界行动模型)在车辆侧运行,将感知数据直接映射为控制动作,跳过语言解析过程。

WEWA省略了语言层避免了抽象化损失,并通过多颗激光雷达和高性能硬件确保模型获得尽可能完整的环境信息。这样虽然硬件成本更高,但靳玉志认为这是实现安全可靠自动驾驶的唯一道路。

华为强调,真正的世界模型不仅限于仿真,而是支撑车辆实时决策的核心。在WEWA架构中,云端的World Engine使用大量仿真和实车数据对模型进行“梦境训练”,学习环境的演化规律并生成优化后的参数;这些参数通过OTA下发到车端的World Action模型,使车辆在物理一致的“世界表示”上直接规划和控制。为了获得尽可能完整的环境感知,华为在车端使用多颗激光雷达和高性能硬件,在最新的问界M9和尊界S800上,已经开始使用4个激光雷达的方案。

靳玉志强调,这条路线虽然成本更高,但能够提供更强的空间理解和决策可靠性,是华为走向高级自动驾驶的唯一道路。

商汤绝影:“开悟”世界模型与生成式仿真平台

商汤科技旗下的自动驾驶品牌绝影智驾推出了世界模型“开悟”并用于大规模仿真数据生成。2025年世界人工智能大会(WAIC)上,绝影发布了升级版的交互式世界模型产品平台,以及业内最大规模的生成式驾驶数据集WorldSim‑Drive。这一平台基于先进世界模型技术,具备对物理规律的理解和对场景元素的控制能力,是面向车企和开发者开放试用的可交互产品。

图片来源:商汤绝影

与蔚来的车端世界模型不同,绝影的“开悟”主要用于生成高保真仿真数据。开悟可在仿真场景中生成11个摄像头视角的时空一致视频,时长可达150秒,分辨率达到专业级1080p。用户可以在平台上自由编辑场景的道路布局、参与体、天气和光照等元素,一键生成风险极高的场景或多样化组合。当前,绝影正与上汽旗下的智己汽车合作,利用这个平台构建端到端数据工厂,针对加塞、追尾等高价值场景批量生成训练数据,并计划推出覆盖数百万合成片段的场景库。

在数据规模和效率方面,WorldSim‑Drive数据集包含超过100万段生成式驾驶片段,覆盖50多种天气与光照条件、200类交通标识和300种道路连接场景,是迄今最大的自动驾驶生成数据集之一。这些合成数据保持多视角时空一致性,时长可达数分钟,画质与真实数据一致。开悟的日生产能力仅用一块A100 GPU就相当于10辆真实车辆或100台道路测试车辆的数据采集能力。目前,绝影已有20%的训练数据来自世界模型生成。

商汤绝影通过“开悟”世界模型搭建了数字世界到真实世界的桥梁:一方面在仿真平台上支持文本或图像提示,快速生成特定场景;另一方面与车企合作打造闭环数据工厂,用合成数据弥补长尾场景不足。

开悟的成功展示了世界模型在仿真数据生成中的力量,不仅降低数据采集成本,还能针对高风险场景进行定制化训练,为自动驾驶提供可靠、安全的测试和训练环境。

四、世界模型 VS VLA:自动驾驶终局路线之争

随着大模型时代的到来,以语言大模型LLM为核心的视觉-语言-行动(VLA)模型开始在自动驾驶领域崭露头角,理想、小米和元戎都是坚定的VLA路线拥护者,在今年7月理想已经开始率先推送量产的VLA版本。

VLA倡导将视觉输入、自然语言理解与行动生成融为一个大模型,通过语言增强情境理解和推理能力。和世界模型相比存在显著差异:

结构与表示

世界模型采用潜在时空表示,核心是一个可以随时间演化的物理世界模拟器。它通过自监督压缩器将感知数据编码为潜在状态,并依靠生成式预测模块在该状态上演化未来

VLA模型则以 视觉—语言—行动统一架构为特征。它引入大型语言模型为大脑,将高维视觉感知映射为自然语言表述,并利用语言链式推理来生成决策或动作指令。VLA模型能够在车辆控制前进行语言层面的推理和解释,使系统兼具快速反射和慢速思考的双系统。

推理路径

世界模型的推理依赖动作条件的内在仿真:模型将候选动作注入潜在世界,生成不同未来场景,再用代价函数或风险评价选择最佳动作。这种推理方式像是在脑海中做实验,因此非常适合物理世界中的对抗和长期评估。

VLA的推理则依赖语言链路:VLA利用大型语言模型的常识和逻辑推理能力,通过自然语言对观察到的场景进行解释、制定规则,然后输出控制信号。这赋予系统更强的可解释性,但其物理推理通常依赖外部模块。。

能力与应用

世界模型着重于长时域、多主体和物理一致性。它可以生成复杂环境的长期演化,捕捉稀有事件、他车互动和路况变化,并在潜在空间中形成真实动作反馈。由于这种闭环特性,世界模型成为评估和优化自动驾驶策略的核心,如特斯拉的神经世界模拟器通过闭环仿真生成对抗场景、进行强化学习训练。

VLA模型更强调语义推理与高层交互。它通过语言接口理解自然语言指令、交通规则和场景描述,具备链式思考能力。VLA可以利用互联网规模的语言数据注入常识,支持复杂推理和解释。

“世界模型VS VLA”的路线之争仍将持续。世界模型更贴近自动驾驶的物理本质,VLA则凭借通识能力在长尾场景上具优势。最终的产业答案,很可能来自两者的互补与融合。

最近AI领域的先驱李飞飞发表长文讨论空间智能,她认为今天的大语言模型擅长抽象知识处理,但在物理世界上仍像“黑暗中的文字匠”,缺乏对三维环境、因果与动力学的扎实理解,难以安全地在现实世界中行动。通过想象、推理、创造与互动来理解世界,而非仅仅依赖语言描述,这正是空间智能的力量。

实现空间智能的答案是“世界模型”,能够在语义、物理、几何与动态等多重复杂世界(无论虚拟还是现实)中进行理解、推理、生成与交互。

她的观点再次将世界模型推向AI领域的前沿,无论最终实现自动驾驶的技术路径是什么,在通往终点的路上,世界模型一定会留下浓墨重彩的一笔。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
烽火(普通会员)
文章
1625
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263550 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索