到2023年年初,神经网络路径规划项目已经分析了从特斯拉客户车辆上收集的1 000万帧视频画面。这是不是意味着它只能达到人类驾驶员的平均水平呢?史洛夫解释说:“不,因为我们只在人类处理各类情况处理得还不错的时候才使用他们的数据进行学习。”纽约布法罗的人类标记员会对视频进行评估并给出分数。马斯克让他们找出“uber五星司机会采取的做法”,而这些视频就是用来训练计算机的。
马斯克经常在特斯拉位于帕洛阿尔托的大楼里走来走去,自动驾驶工程师坐在开放的工作区里,他会半跪在他们身旁,即兴讨论一些问题。有一天,史洛夫向他展示了他们取得的进展。马斯克对此印象深刻,但他有一个疑问:是不是真的需要这种全新的方法呢?会不会有点儿矫枉过正呢?马斯克的一句座右铭就是:永远不要用导弹打苍蝇,你应该用苍蝇拍。为了处理一些不太可能发生的、边边角角的极端情况,用神经网络来规划路径会不会是一种过于复杂的方式呢?
史洛夫向马斯克展示了神经网络路径规划比基于规则的方法更有效的实例。演示中的道路上到处都是垃圾桶、倒下的交通锥筒和散落的杂物。在神经网络路径规划的引导下,车辆能够绕过障碍物,越过车道线,并在必要时打破一些规则。史洛夫告诉马斯克:“当我们从基于规则的算法转向基于神经网络的路径算法时,这种情况就会发生,即使在混乱的环境中,如果你打开了这项功能,车辆也不会发生碰撞。”这种跨越到未来的感觉让马斯克兴奋不已。他说:“我们应该做一次像007系列电影场面的酷炫演示,四面八方都有炸弹爆炸,不明飞行物从天而降,而这辆车飞速驶过,不会撞到任何东西。”
机器学习系统在进行自我训练时通常需要一个目标或指标作为指导。马斯克在管理时喜欢通过下命令的方式来决定哪些指标最重要,于是他给了他们一个标准:特斯拉全自动驾驶车辆在没有人类干预的情况下能够行驶的里程数。“我希望每次开会的第一张幻灯片都能展示每次干预前自动行驶里程的最新数据。”马斯克说,“如果训练人工智能,我们应该优化什么?答案是提高两次干预之间的行驶里程数。”他告诉他们,要像打游戏一样,每天都能看到自己的得分。“没有分数的电子游戏是无聊的,所以每天看着单次干预前的里程数增加就会很有干劲儿。”
团队成员在工作区安装了85英寸的巨大显示屏,实时显示完全自动驾驶车辆在没有干预措施的情况下平均行驶了多少英里。每当他们看到某一类干预措施再次出现,比如驾驶员在变道、并线或转弯进入复杂路口时抓住了方向盘,他们就会同时与规则团队和神经网络路径规划团队通力合作,对这一问题进行修复。他们在办公桌附近放了一面锣,每当他们成功解决了一个导致干预出现的问题,他们就敲一次锣。
人工智能试驾
2023年4月中旬,是时候让马斯克测试一下这项新的神经网络路径规划技术。史洛夫和自动驾驶团队安排了一辆试验车,它能让一个用神经网络训练的软件模仿人类驾驶员的操作,软件中只有最基础的传统规则代码。马斯克就坐在这辆车里,开始在帕洛阿尔托兜风。
马斯克坐在驾驶座上,旁边坐的是特斯拉自动驾驶软件总监阿肖克·埃卢斯瓦米。史洛夫和团队的另外两名成员马特·鲍赫和克里斯·佩恩坐在后排,这三个人在特斯拉的办公桌相邻,已经共事了8年,他们在旧金山的住处也相距不远。一般同事的办公桌上会摆一张同家人的合影,而这三个人的桌上都放着同一张他们仨在万圣节派对上的合影。詹姆斯·马斯克曾是这个小团队的第四名成员,埃隆·马斯克接管推特后,把他调了过去,而史洛夫逃过了这一劫。他们驶离特斯拉的帕洛阿尔托办公大楼的停车场前,马斯克在地图上选了一个目的地,点击“完全自动驾驶”按钮,随后双手离开方向盘。试验车拐上主干道时,第一个可怕的挑战出现了:一名骑车人朝他们迎面而来。“我们都屏住了呼吸,因为骑车人的行为很难预测。”史洛夫说。但马斯克毫不在意,也没去抓方向盘,车就自己避让了过去。史洛夫说:“感觉就跟人类驾驶员做出的判断一样。”
史洛夫和他的两名队友详细解释了他们的完全自动驾驶软件是怎么用特斯拉用户的车载摄像头收集的数百万个视频片段进行训练的,结果是这样做出来的软件堆栈比人类编程规定好数千条规则的传统堆栈要简单得多。史洛夫说:“它的运行速度快了10倍,可以直接删掉30万行代码。”鲍赫说这就像人工智能机器人在玩一款非常无聊的视频游戏,马斯克笑了起来。后来当这辆试验车能在车流中自如穿梭时,他就掏出手机发起了推文。