当前位置:服务支持 >  软件文章 >  回顾特斯拉AutopilotAI总监AK上任以来的报告

回顾特斯拉AutopilotAI总监AK上任以来的报告

阅读数 8
点赞 0
article_banner

来源 | 黄浴@知乎

最近特斯拉的AI day,展示了AI相关的技术,除了最强训练训练节点芯片D1和“犹抱琵琶半遮面”的世界上最强大的AI训练计算机Dojo,以及最新发布的类人机器人Tesla Bot,我们关心和感兴趣的还是Autopilot的算法

回顾一下这些年,特斯拉在赶走David Nister和Chris Lattner之后,钢铁侠ELon Mask从Open AI挖来了斯坦福大学李飞飞的高徒Andrej Karpathy(AK),这个博士毕业刚刚1-2年的深度学习界“网红”(讲解过LSTM)。虽然AK博士毕业论文方向是image captioning,这时候他也要开始一个崭新的自动驾驶探险旅程。(在特斯拉内部,就有传说他刚开始搞不懂E矩阵和F矩阵区别的笑话)

回顾特斯拉AutopilotAI总监AK上任以来的报告的图1

这里就回顾一下自从他2017年6月加入特斯拉之后的出场,以及相关的报告。
回顾特斯拉AutopilotAI总监AK上任以来的报告的图2

AK第一次亮相是在2017.11.11在Medium发表的文章SW2.0,没有理解错的话,就是一个全神经网络平台,端到端(E2E)的深度学习模型。
回顾特斯拉AutopilotAI总监AK上任以来的报告的图3

他的解释是:指定一些目标(例如,“满足输入输出示例对的数据集”或“赢得围棋比赛”),编写代码的粗略骨架(即一种神经网络架构),识别要搜索的程序空间子集,并使用计算资源来搜索该空间寻找有效的程序;将搜索限制在程序空间的一个连续子集,在神经网络的搜索通过反向传播(BP)和随机梯度下降(SGD)变得高效。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图4

回顾特斯拉AutopilotAI总监AK上任以来的报告的图5

随后,2018年在Spark+AI Summit‘18,AK再次阐述了这个SW 2.0理念:


回顾特斯拉AutopilotAI总监AK上任以来的报告的图6

同时,在这个Spark有关的会议上,他介绍了特斯拉的AI工作:数据标注和数据闭环引擎。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图7

回顾特斯拉AutopilotAI总监AK上任以来的报告的图8


这个时候,他对数据的选择使用的是“notice a problem“。
AK也讲述了数据的不平衡问题,以及数据的清理困难:
回顾特斯拉AutopilotAI总监AK上任以来的报告的图9

回顾特斯拉AutopilotAI总监AK上任以来的报告的图10


回顾特斯拉AutopilotAI总监AK上任以来的报告的图11

2019年AK在Pytorch DevCon‘19介绍了特斯拉的AI训练平台和多任务训练框架:主要的特点是共享主干和多头结构。


回顾特斯拉AutopilotAI总监AK上任以来的报告的图12

回顾特斯拉AutopilotAI总监AK上任以来的报告的图13

回顾特斯拉AutopilotAI总监AK上任以来的报告的图14

他采用Pytorch的分布式训练工具

回顾特斯拉AutopilotAI总监AK上任以来的报告的图15

他提出了“operation on vacation”这个概念,可以解释为自监督学习:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图16

AK第一次介绍了smart summon的建图工作:
回顾特斯拉AutopilotAI总监AK上任以来的报告的图17
回顾特斯拉AutopilotAI总监AK上任以来的报告的图18

基本是一个occupancy tracking框架:
回顾特斯拉AutopilotAI总监AK上任以来的报告的图19
采用自己的FSD芯片车端计算平台,但是没有给出细节:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图20
回顾特斯拉AutopilotAI总监AK上任以来的报告的图21

随后4月份的特斯拉Autonomy Day 2019,AK开始给投资人介绍Autopilot的核心技术:


回顾特斯拉AutopilotAI总监AK上任以来的报告的图22

回顾特斯拉AutopilotAI总监AK上任以来的报告的图23

这里数据的选择变成“inaccuracy”,就是找出对模型的不准确和不确定推理这些数据,同时提出基于shadow mode相关的trigger模式,比如如何寻找马路上的动物为例:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图24

这次马斯克和AK一起diss了激光雷达,当然AK也提供了“证据”,是一个视觉SLAM工作,不过他提到了谷歌的一个无监督深度估计的论文,不过这时候还没有结果展示吧。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图25
回顾特斯拉AutopilotAI总监AK上任以来的报告的图26
当时特斯拉还没有抛弃毫米波雷达,仍然采用它辅助训练视觉模型:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图27

数据成为了特斯拉最强大的武器,这也是大家慢慢接受现实AI应用面临“长尾”问题的解决方法,包括AK介绍的path prediction和cut-in工作:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图28
回顾特斯拉AutopilotAI总监AK上任以来的报告的图29
回顾特斯拉AutopilotAI总监AK上任以来的报告的图30

虽然AK提到了仿真的作用(确实有仿真组存在),但是钢铁侠随后补充到:仿真就是学生给自己布置作业,和真实数据还是不可比的。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图31

他也提到了特斯拉的自动标注工具:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图32

另外,从Snap跳槽过来的Stuart Bowers,作为协助AK去布置车端Auotopilot的工程VP,介绍了lane change工作,使用了大量的通过shadow mode获取的数据进行模型训练:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图33

不过,Stuart不被Elon欣赏,几个月后不久就离开了。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图34

此外,特斯拉的芯片负责人Peter Bannon,出来透露了FSD芯片的更多细节:
回顾特斯拉AutopilotAI总监AK上任以来的报告的图35

回顾特斯拉AutopilotAI总监AK上任以来的报告的图36

好快2个月之后ICML‘19,AK给了一个大会报告,这次他阐述的更加清楚MTL在特斯拉应用的具体方法,并且引用了两篇斯坦福大学论文作为佐证:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图37
回顾特斯拉AutopilotAI总监AK上任以来的报告的图38
回顾特斯拉AutopilotAI总监AK上任以来的报告的图39
回顾特斯拉AutopilotAI总监AK上任以来的报告的图40

重要的是loss函数的设置:其中他还举例介绍operation on vacation如何做到的(用了好几页PPT)

回顾特斯拉AutopilotAI总监AK上任以来的报告的图41
回顾特斯拉AutopilotAI总监AK上任以来的报告的图42

回顾特斯拉AutopilotAI总监AK上任以来的报告的图43

时间来到了2020年,这时候的特斯拉已经是全球市值最大的车企。AK参加了在谷歌门口MV computer museum举办的Scaled ML conference‘20:


回顾特斯拉AutopilotAI总监AK上任以来的报告的图44

FSD开始冒出来了:只是debug状态

回顾特斯拉AutopilotAI总监AK上任以来的报告的图45

回顾特斯拉AutopilotAI总监AK上任以来的报告的图46


继续通过强大的trigger mode获取数据,这里是stop sign为例:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图47

评估数据的unit test:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图48

第一次使用HydraNets描述MTL的框架:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图49

其实这个term已经有人用过:CVPR‘18 论文“HydraNets: Specialized Dynamic Architectures for Efficient Inference“,但是意义不一样。

第一次采用BEVNet,解释了如何从图像平面映射到BEV,而不是任务完成的late fusion(其实他解释了,实验结果证明图像平面估计的目标,如车道、路沿和障碍物等等,其位置转换到BEV是误差较大的)。其实这就是地图的构建方法,只是当时是针对parking lot而言(注:可参考mobileye的REM)。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图50
回顾特斯拉AutopilotAI总监AK上任以来的报告的图51

最后,终于把depth estimation结果展示了,其中借用了当时的论文term “伪激光雷达(pseudo lidar)“。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图52

回顾特斯拉AutopilotAI总监AK上任以来的报告的图53

几个月之后的CVPR‘20,AK出席了AV workshop,其中内容基本延续了scaled ML conference的思想:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图54

介绍了更多数据的挖掘工作:上次只是stop sign,这里是其他traffic sign的数据

回顾特斯拉AutopilotAI总监AK上任以来的报告的图55

毫无悬念的,BEVNet也采集街道的数据绘制地图:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图56

另外他强调了scalability的问题:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图57
回顾特斯拉AutopilotAI总监AK上任以来的报告的图58

回顾特斯拉AutopilotAI总监AK上任以来的报告的图59

在之后的一段时间,我们听到了Elon Mask透露的4-D数据标注、professional labeller、强大的训练节点芯片和超级快速的AI训练计算机平台Dojo;他还意味深长地宣布,整个SW已经升级重写过,Autopilot的界面也彻底改观。还有一个重要的改变,特斯拉宣布取消毫米波雷达,这样变成了纯视觉的解决方法。

这样的背景下,CVPR‘21 AV workshop我们等来了AK一年后的报告。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图60

这时候FSD beta版已经上线:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图61

这次毫米波雷达去除方面也做了介绍,并且举例证明其性能反而得到提升:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图62
回顾特斯拉AutopilotAI总监AK上任以来的报告的图63

再次强调自动标注工具的开发:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图64

展示了221个trigger模式去获取数据:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图65

这是神经网络的架构图:MTL下的multi head,其中backbone的multi-camera fusion采用了流行的transformer架构,multi-head的video module做多帧数据融合,可以是transformer、3-D CNN或者其他NN架构的融合方法,现在知道是spatial RNN的方式。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图66

卖个关子,介绍一下最近强大的计算群,还不是Dojo:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图67

这次提到了simulation的重要,但是没有细节。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图68

介绍了一点自动标注的demo:
回顾特斯拉AutopilotAI总监AK上任以来的报告的图69

回顾特斯拉AutopilotAI总监AK上任以来的报告的图70

两个月之后的8月19日,我们看到,特斯拉在AI day曝露了更多的技术路线和工作demo:


回顾特斯拉AutopilotAI总监AK上任以来的报告的图71

这里除了AK以外,还有冒出来的软件负责人Ashok Elluswamy:基本是CMU硕士毕业就在特斯拉一直待着

回顾特斯拉AutopilotAI总监AK上任以来的报告的图72

工程负责人Milan Kovac:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图73

还有Dojo项目负责人Ganesh Venkataramana:在AMD工作14年的“老人”

回顾特斯拉AutopilotAI总监AK上任以来的报告的图74

首先是AK的感知模块介绍: 第一次给出了backbone构成,即RegNet,以及bottleneck构成,即BiFPN

回顾特斯拉AutopilotAI总监AK上任以来的报告的图75

RegNet来自这篇FB论文“Designing Network Design Spaces“:一种高效的架构参数优化空间

回顾特斯拉AutopilotAI总监AK上任以来的报告的图76

BiFPN来自谷歌论文“EfficientDet: Scalable and Efficient Object Detection”:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图77

这次他详细地解释了单目检测然后融合的问题,不如直接在特征空间融合后在multi-head做检测和位置估计:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图78

这是transformer架构的应用:Key-Query-Value-memory

回顾特斯拉AutopilotAI总监AK上任以来的报告的图79

特别是AK指出了一个数据泛化问题,各种数据来自不同的车辆,而其calibration并不一致,这会造成预测时候的数据不一致性,故此提出了common virtual camera

回顾特斯拉AutopilotAI总监AK上任以来的报告的图80
回顾特斯拉AutopilotAI总监AK上任以来的报告的图81

这是video 模型架构:考虑video上下文信息,注意输入的信息除了camera,还有IMU

回顾特斯拉AutopilotAI总监AK上任以来的报告的图82

提出解决上下文的feature queue方法:类似cache的作用,这里有time-based和space-based两种,前者每隔27毫秒,适合动态状态,比如运动中处理目标遮挡;后者每隔1米,适合静止状态,比如等红绿灯时候不变的道路特性。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图83
回顾特斯拉AutopilotAI总监AK上任以来的报告的图84

在video module采用了spatial RNN方法:fuse时域信息,kinematic做spatial align,这里AK可视化其中学习的特征图

回顾特斯拉AutopilotAI总监AK上任以来的报告的图85
回顾特斯拉AutopilotAI总监AK上任以来的报告的图86

最后的感知框架如图:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图87

Ashok负责P&C(规划控制),自动标注(AK只负责手工标注)和仿真。 首先是P&C: L2不需要,FSD需要规划,三个优化目标,即安全、舒适度和有效率

回顾特斯拉AutopilotAI总监AK上任以来的报告的图88

规划确实比较复杂:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图89

这是特斯拉的解决方法:分级处理,首先通过粗搜索找到一些候选,这样在 精简的convex corridor做下一步连续优化

回顾特斯拉AutopilotAI总监AK上任以来的报告的图90

这里实际上特斯拉解决的是multi-agents的规划,而不仅仅是ego-agent,比如在街道(窄路)规划:对方车辆的意图也做了判断和推理

回顾特斯拉AutopilotAI总监AK上任以来的报告的图91
回顾特斯拉AutopilotAI总监AK上任以来的报告的图92

以一个泊车为例,展示如何解决复杂交通问题的过程:采用MCTS和基于神经网络的policy+value学习,计算非常高效

回顾特斯拉AutopilotAI总监AK上任以来的报告的图93

其中MCTS在围棋软件alphago曾经扬名,这里通过神经网络学习的状态和动作分布,然后在MCTS得到快速求解:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图94

这里注释了DeepMind的MuZero方法,即论文“Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model“:AlphaZero改进版,基于模型的强化学习(RL)

回顾特斯拉AutopilotAI总监AK上任以来的报告的图95

最后是整个FSD架构:Ashok说的控制基于 MPC,规划也是视觉感知中间特征训练出来的神经网络输出轨迹分布和physics-based模型结合

回顾特斯拉AutopilotAI总监AK上任以来的报告的图96

AK补充了手工标注团队信息:1000人的雇员,而不是外包。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图97

4-D标注“浮出水面”:竟然采用了重建的路面拼接方法

回顾特斯拉AutopilotAI总监AK上任以来的报告的图98

Ashok再次出来介绍自动标注工具: 研发了很多离线模型(速度要求低、可以全局优化而不需要遵循时序)

回顾特斯拉AutopilotAI总监AK上任以来的报告的图99

对静态目标就是地图构建:Ashok说这不是HD map,不会永久保留,只是标注训练,who knows?

回顾特斯拉AutopilotAI总监AK上任以来的报告的图100
回顾特斯拉AutopilotAI总监AK上任以来的报告的图101

对动态目标就是障碍物:遮挡已经被解决(多视角融合,但是有些运动无法内插恢复),是实例分割而不是语义分割;有环境重建,有点儿像mobileye的ViDAR,但是后者是在线的

回顾特斯拉AutopilotAI总监AK上任以来的报告的图102
回顾特斯拉AutopilotAI总监AK上任以来的报告的图103

其实谷歌最近也推出一个自动标注的工具,主要是激光雷达数据做目标检测,CVPR‘21论文“Offboard 3D Object Detection from Point Cloud Sequences“:其中也分成静态目标和动态目标标注

回顾特斯拉AutopilotAI总监AK上任以来的报告的图104

Ashok最后继续介绍仿真部分: 实际上仿真解决了真实数据采集的不足,特别是很少发生的事件,另外“数字孪生”技术可以将真实场景数据复现在虚拟环境,然后进行变化,类似于谷歌之前的“fuzziness”。

回顾特斯拉AutopilotAI总监AK上任以来的报告的图105

他从5个特点介绍了特斯拉仿真器的工作:

1 传感器的仿真

回顾特斯拉AutopilotAI总监AK上任以来的报告的图106

2 结合传统的ray-tracing和神经网络训练的渲染

回顾特斯拉AutopilotAI总监AK上任以来的报告的图107

3 多样化的行人、车辆和其他运动物体

回顾特斯拉AutopilotAI总监AK上任以来的报告的图108

4 规模化的场景合成:
除了手工和程序方法之外,还有机器学习的方法对抗场景生成

回顾特斯拉AutopilotAI总监AK上任以来的报告的图109

这个Neural rendering也是目前的深度学习一个应用方向:比较原始图像和Neural rendering结果

回顾特斯拉AutopilotAI总监AK上任以来的报告的图110
回顾特斯拉AutopilotAI总监AK上任以来的报告的图111

感兴趣的,可参考综述论文“State of the Art on Neural Rendering“:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图112

5 场景重建(数字孪生):

回顾特斯拉AutopilotAI总监AK上任以来的报告的图113

其实最近谷歌也推出了一个SurfelGAN的复现技术,参考论文"SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving", 当然也有激光雷达数据做输入产生surfel,只是texture来自图像数据

回顾特斯拉AutopilotAI总监AK上任以来的报告的图114

仿真下一步的工作:注意有强化学习的引入

回顾特斯拉AutopilotAI总监AK上任以来的报告的图115

此外,Milan过来主要介绍编译器和调度:

回顾特斯拉AutopilotAI总监AK上任以来的报告的图116

Ganesh 上台就是机器学习训练Dojo计算机的介绍:
回顾特斯拉AutopilotAI总监AK上任以来的报告的图117
回顾特斯拉AutopilotAI总监AK上任以来的报告的图118
回顾特斯拉AutopilotAI总监AK上任以来的报告的图119
回顾特斯拉AutopilotAI总监AK上任以来的报告的图120
回顾特斯拉AutopilotAI总监AK上任以来的报告的图121
回顾特斯拉AutopilotAI总监AK上任以来的报告的图122
回顾特斯拉AutopilotAI总监AK上任以来的报告的图123
回顾特斯拉AutopilotAI总监AK上任以来的报告的图124
回顾特斯拉AutopilotAI总监AK上任以来的报告的图125

最后是Elon亲自下场介绍特斯拉的类人机器人: Tesla Bot

回顾特斯拉AutopilotAI总监AK上任以来的报告的图126

回顾特斯拉AutopilotAI总监AK上任以来的报告的图127

其实已经有媒体在说,Tesla这次AI day基本就是招兵买 马的目的,应该是很缺人。Tesla Bot也许就是噱头,类人机器人首先要平衡站立住吧,其次手臂抓取也要求一定的精度。

另外,我们也要说,特斯拉autopilot团队并没有去解释安全的问题。而如何估计模型uncertainty、对corner case和OOD检测等已经是当前涉及安全的热点技术,还有特斯拉团队自身的self-supervised learning工作,也包括最近介绍的自动标注和仿真算法,大家都是期待了解更多。

补充几句: 有些过于夸大或者盲目崇拜特斯拉技术也不好,当然这里展示的工程化做的确实好。

1.规划控制 ,这是特斯拉第一次报道,也没有什么特别出彩的,看看谷歌和Uber的工作,基本都可以说绝对比特斯拉要深度一些;

2.仿真模拟测试 ,谈到商业落地闭环,谷歌也完成了,但是有激光雷达辅助,参考Simulation City;数字孪生工作,应该一些创业公司都可以做,腾讯自动驾驶也做了;Uber也做了很多机器学习的仿真工作,在被卖给Aurora之后,有一个多伦多研发中心的博士直接去UIUC做教授去了,可以参考他们发表的一系列文章;英伟达除了做传感器渲染引擎(这是他们的强项)之外,也在研发基于机器学习的方法,在多伦多大学有一个教授就负责英伟达的研发中心做这个;

3.至于标注 ,一些标注公司也不差,比如硅谷估值73亿美金的Scale AI,自身的研发算法也是很强的。


免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删
相关文章
QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空