My wild guess of how v12 is trained

Elon described it as “photons (images) in, controls out.” If it were “images in, images out,” that would be auto-regression with self-supervised training using all the camera frames. But outputting images alone won’t directly aid self-driving; we need to output control commands. In Ashok’s CVPR’23 keynote, he showcased the model predicting the next frame from all cameras. Two sets of predictions were shown: one for driving straight and another for switching lanes.

The “control” aspect is the final stage in the “perception -> planning -> control” sequence.

Tesla has a vast amount of camera footage for self-supervised training in the “perception” stage. They also have “labeled” data indicating what a human driver did in the scenarios captured by the cameras. This data can be used for supervised training in the “control” stage. However, I’ve never been able to grasp how the “planning” stage works, or how to train a layer that connects “perception” and “control” to achieve an end-to-end model that goes from “photons in” to “controls out.”

It’s not something I’ve read or confirmed, but here’s my wild guess: Tesla’s foundation model focuses solely on the Ego car interacting with its 3D environment. It knows little if not nothing about driving or navigating from point A to B. Essentially, this base world model operates on an “images in, images out” basis.

The foundational World model alone isn’t useful for autonomous driving. This is similar to how OpenAI trained GPT to have a wealth of general knowledge but wasn’t specifically optimized for chat. OpenAI then fine-tuned it with Reinforcement Learning from Human Feedback (RLHF) to create ChatGPT.

Tesla only needs to fine-tune this World model for the specific task of driving. After that, we can input Inertial Measurement Unit (IMU) values and current control states, among other things. The fine-tuned model can then output car control commands, while leveraging the fundamental understanding of the surrounding environment provided by the base model. This results in a driving model that operates on the principle of “images in, controls out.”

That makes even more sense to me for another reason. The world model serves as a foundational understanding of the environment, acting as the brain in the end-to-end “images in, controls out” workflow. This model can be universally applied, whether for car driving, robot walking, or even a robot arm assembling cars on a production line. Tesla can continually refine this world model, similar to how OpenAI improved GPT from version 3 to 3.5 and now to 4. Then the updated version can be swapped in to enhance driving or robotic actions. Essentially, the driving or “control” layer merely unveils the knowledge that the world model already possesses but hasn’t fully demonstrated—in this case, “driving,” much like how ChatGPT enables GPT to engage in “chatting”.

Here’s what I envision the training architecture to be like.

First, train a foundational World Model. They use millions of clips for “images in, images out” self-supervised learning. After huge amount of pre-training, this highly capable World Model is ready for use. Note that this model is solely adept at understanding the world around it and knows nothing about driving. It operates on an “images in, images out” basis.

Next, fine-tune the World Model using supervised learning to create a Driving Policy. Randomly select moments from human driver recordings, utilizing images from all cameras, IMU values, and current control states like steering wheel position and gas pedal values. Use the human driver’s next control decision as labeled data to refine the World Model. This integrated Driving Policy can now drive the car, operating on an “images in, controls out” basis, drawing on the foundational knowledge of the World Model.

Next, develop a Reward Model for desirable driving behavior. Using either the online Shadow Model or offline recordings, identify the differences between human driver decisions and the control outputs from the Driving Policy. Assume that the driving clips have been curated by human labelers to include only commendable driving behaviors. These serve as the standards for rewarding the Driving Policy. Using this data, you can then train the Reward Model.

Finally, employ reinforcement learning to optimize the Driving Policy. You can use methods like PPO or something similar for this step. Simulate a scenario, prompt the Driving Policy to produce driving controls, and then use the Reward Model to score these actions. Based on these scores, update the policy accordingly.

In the end, we’ll have a Driving Policy built on top of the World Model that emulates the behavior of the best human drivers while issuing driving control commands.

That is, “photons in, controls out”!

(Edited by ChatGPT)


以下中文翻译由ChatGPT提供,经本人稍作修改。

我对v12如何训练的大胆猜测

Elon将其描述为“输入光子(图像),输出控制命令。”如果是“输入图像,输出图像”,那就是使用所有相机帧进行自监督训练的自回归。但仅输出图像并不能直接帮助自动驾驶;我们需要输出控制命令。在Ashok的CVPR’23主题演讲中,他展示了模型根据所有摄像头预测下一帧。显示了两组预测:一组是直行,另一组是换道。

“控制”是“感知->计划->控制”序列中的最后一个阶段。

Tesla拥有大量的相机录像,用于“感知”阶段的自监督训练。他们还有标记了人类驾驶员在摄像头捕捉的场景中所做的控制动作的“标签”数据。这些数据可用于“控制”阶段的有监督训练。然而,我从未能够理解“计划”阶段是如何工作的,或如何训练一个连接“感知”和“控制”的层,以实现从“输入光子”到“输出控制”的端到端模型。

以下不是我读到或证实的,只是我的大胆猜测:Tesla的基础模型仅专注于Ego车与其三维环境的互动。它几乎不了解如何驾驶,不了解如何从点A到点B。从本质上讲,这个基础世界模型是基于“输入图像,输出图像”的。

这个基础世界模型本身对自动驾驶没有用处。这与OpenAI如何训练GPT具有丰富的一般知识但没有专门优化用于聊天类似。然后,OpenAI用人类反馈强化学习(RLHF)进行微调,创建了ChatGPT。

Tesla只需要针对驾驶的特定任务对这个世界模型进行微调。之后,我们可以输入惯性测量单元(IMU)值和当前控制状态等。微调后的模型可以输出车辆控制命令,同时利用基础模型提供的环境基础理解。这就构建了一个基于“输入图像,输出控制”的驾驶模型。

这对我来说更有道理的另一个原因是,世界模型作为对环境的基础理解,充当端到端“输入图像,输出控制”工作流中的大脑。这个模型可以通用应用,无论是用于汽车驾驶,机器人行走,甚至是机器人手臂在生产线上组装汽车。

Tesla可以不断完善这个世界模型,类似于OpenAI从版本3改进到3.5,现在到4。然后,可以用更新版本来提升驾驶或机器人动作的能力。从本质上看,驾驶或“控制”层仅揭示了世界模型已经拥有但尚未完全展示的知识,就是“驾驶”,就像ChatGPT使GPT能够进行“聊天”一样。

以下是我设想的训练架构。

首先,训练一个基础的世界模型。使用数百万个剪辑进行“输入图像,输出图像”的自监督学习。经过大量的预训练后,这个拥有高度能力的世界模型准备好了。请注意,这个模型仅擅长理解周围的世界,对驾驶一无所知。它是基于“输入图像,输出图像”的。

接下来,使用有监督学习微调世界模型,创建一个驾驶政策。从人类驾驶员的录像中随机选择时刻,利用来自所有相机的图像、IMU值和当前控制状态,如方向盘位置和油门踏板值。使用人类驾驶员的下一个控制决策作为标签数据来微调世界模型。于是这个集成的驾驶政策可以驾驶汽车,基于“输入图像,输出控制”的原理,并以世界模型的知识作为基础。

接下来,开发一个奖励模型,以获得理想的驾驶行为。使用在线影子模型或离线录像,识别人类驾驶员决策与驾驶政策的控制输出之间的差异。假设驾驶剪辑片段都已经由人类标注员精心筛选过,仅包含值得奖励的驾驶行为。使用这些数据,就可以训练奖励模型。

最后,使用强化学习来优化驾驶政策。可以使用像PPO这样的方法进行这一步。模拟一个场景,提示驾驶政策产生驾驶控制,然后使用奖励模型对这些行为进行评分。根据这些分数,相应地更新政策。

最终,我们将在世界模型之上构建一个驾驶政策,该政策模仿最优秀的人类驾驶员的行为,同时发出驾驶控制命令。

也就是说,“输入光子,输出控制”!

一百万局

我突然想到一个奇怪的问题。AlphaGo赢了李世石,然后左右手互搏练出来的AlphaGo Zero又100:0赢了AlphaGo。我的问题是:如果让AlphaGo Zero跟一百万个人类棋手每人都下一局围棋,人类能赢其中一局的可能性是无限接近于零,还是很可能不是零呢?

FSD v12 观后感

Elon 的直播:https://twitter.com/elonmusk/status/1695247110030119054

原来打算标题是:自动驾驶终局。后来觉得过于标题党。毕竟还没有亲测,踏踏实实的说一下观后感吧。

我第一次在网上看FSD的视频是三年前,自己开始使用是2021年12月24日,时至今日将近两年。从激动到无感。觉得如果按照这进步速度,完全自动驾驶不可能成功。

作为一个对人工智能和机器学习有一些皮毛认知的,早期种草并常年深度使用ChatGPT的,每天开FSD Beta的亲测者来说,这次的v12视频给我的感觉是:自动驾驶的路已经走通了。

我没有内部消息,根据马斯克和特斯拉团队公开透露的信息,说一说我对v12的理解,尤其是跟之前版本完全不同的方面。

首先当然是:end-to-end(端到端)

端到端是指模型从输入(摄像头、IMU等的原始数据)直接生成输出(加减速转向等车辆控制指令),而不需要人工定义的中间步骤或特征提取。这听起来容易,但是从几十年前的自动驾驶的雏形至今,大家对是否可能实现端到端,甚至对应不应该去尝试端到端,都没有统一的看法。因为端到端很难很难。

举个例子,在某种意义上,ChatGPT就是端到端。例如,训练ChatGPT的时候,并没有告诉它,在英语里面,名词复数要加s,有些特殊名词不加,有些加es;是“I am”,不是“I are”;形容过去发生的,用动词过去式等等。完全没有教以上这些语法,不单语法没教,什么都没有教。有的只是海量的文本,机器自己学着学着就会了,在这种大型语言模型成功之前,没有多少人相信不教机器语法,机器也会输出语法完美的文字。就如同不用学人类棋谱的AlphaGo Zero完胜AlphaGo,之后连围棋规则都不教的AlphaZero完胜AlphaGo Zero。

在自动驾驶领域,端到端就是,不用告诉它什么是交通灯,交通灯长什么样子,如果是红灯就必须停下来等到绿灯才可以走之类的,通通不用,它自己看海量的行车视频,学着学着就会了。

你说,那是不是它就通过对海量的视频学习,虽然不知道那个“东西”人类称之为交通灯,但每次看到这个“东西”呈现红色,视频里的本车(ego)都停下来,所以它就决定停下来呢?我觉得未必。因为端到端不存在显式的物体识别。自动驾驶的模型根本没有必要硬生生识别出一个“东西”。就如同一个母语是英语的小小孩,当他说“three apples”的时候,他并没有意识到英语里面名词复数要加s的语法,甚至在他脑袋里都没有名词这个“东西”。

这就是端到端模型成功驾驭一项技能之后显得特别诡异之处。我们太不习惯,除了人类以外,还有其它系统,竟然也可以拥有不能精准解释的直觉。就如同,一个小小孩不懂什么是名词,但依然能正确使用名词单复数的现象是可以理解并接受的;然而,一段代码或者一个人工智能不懂什么是名词,但依然能正确使用名词单复数是天方夜谭的。。。直到ChatGPT出现了。

当然,ChatGPT是懂名词的,你让它去解释英语语法,它比很多语法书都说得清楚明了。但当它输出“three apples”的时候,它并没有去刻意运用英语语法把s加上去。就如同一个母语是英语的成年人,就算懂语法,说“three apples”时,他没有刻意去运用在学校学到的语法,因为不需要,因为直觉更好用。

为什么我认为v12能产生可靠的“直觉”?这就要说说v12的第二个不同之处。

Foundation Model(基座模型)

例如,GPT就是一个基座模型。

基座模型需要大量通用数据进行预训练,GPT使用都就是维基百科和各种网上能收集到的海量高质量信息。基座模型有庞大的参数,就如同人脑的神经元。在自然语言领域,事实证明,当数据量和参数量达到某一个临界值,模型就开始“涌现”所谓的智能,开始呈现出一些对“投喂”的信息的突破表面的简单理解,而进入深层的重组织,这恰似人类把知识变成智慧的过程。

想要说明白自动驾驶的基座模型是如何训练的,就不得不先说说自然语言的基座模型(例如GPT)是如何训练的。

想象有这样一个黑匣子,里面有成万上亿的节点,每个节点有一个神奇的旋钮可以调整这个节点。只要你在匣子的一边输入一段文字,这段文字就会依次的经过那亿万节点,最终在匣子的另一边输出同一段文字并续写更多的文字。调整一下亿万个节点的其中一个的旋钮,同样的文字经过这个节点出来的“信号”就会跟之前不同,从而最后这个匣子的输出也会因此而跟之前不同。

让我们开始训练这个黑匣子。

首先,把亿万个旋钮都给拧到一个随机的位置上。

然后,我们挑一些文字,例如“大展身手”。给匣子输入“大展”,经过所有节点后,匣子输出“大展汽车”。

想象有一个数学方程,只要你把正确答案“身手”和匣子的输出“汽车”代入方程,它就给你算一个数值叫“错得多离谱值”。例如算出“身手”和“汽车”的“错得多离谱值”是0.67。

然后,你去随机的(但非常轻微的)拧一下那万亿个旋钮的其中一个。目标是,让调整后新的输出的“错得多离谱值”比0.67低,例如0.66。然后按这个规律再多拧几个节点的旋钮。目标是,每次调整后都让新的输出的“错得多离谱值”比拧之前低那么一点点。如果万一高了就往反方向拧一拧再试试。

从此,你日以继夜地给匣子输入所有的成语,日以继夜地拧那亿万旋钮,每次都朝着“错得多离谱值”低的方向迈进一小步。然后你甚至开始输入一句一句的话,慢慢的发展到输入一段一段的文章,一本一本的书,最后整个互联网的文字。至于输出,你从让它尝试输出一个字词,到让它尝试输出一句话,后来让它输出一篇文章。

就这样不断的让匣子学习,朝着“错得多离谱值”低的方向迈进,在海枯石烂前的某一天,你惊觉,现在每次当你输入:

“大展”

它就会输出:

“大展身手”

甚至,当你输入:

“小明在学校的才艺表演上大展”

它就会输出:

“小明在学校的才艺表演上大展身手,把同学们都震惊了。”

然后,你好奇的去试一下:

“隔壁餐馆开张营业,小明祝李老板生意兴隆,大展”

它竟然输出:

“隔壁餐馆开张营业,小明祝李老板生意兴隆,大展宏图,一本万利!”

它不但会“大展身手”,还会“大展宏图”。更重要的是,它运用自如,毫无违和感。那是因为在日以继夜的学习中,它见过了太多的跟生意祝贺有关的文字,更大的概率是使用“大展宏图”。

你或许已经留意到了,匣子在学习的过程中,有一个很重要的东西,叫做“注意力”(attention)。如果你输入“大展”,它不但会注意“展”,还会注意“大”,然后同时会注意“大展”。如果你输入的是一句话,它不单止会很注意学习最后的几个字,它还会注意整句话。如果你输入的是一段文字,学习的时候它会通读上下文。通过这种不断从整体学习,然后把注意力都放在它认为跟接下来要不断学习的(也就是不断降低“错得多离谱值”的)下一个词最有关的上文,它就学会了“跟生意祝贺有关的文字,更大的概率是使用大展宏图”的窍门。

这就是我之前强调的,这一代的大模型,它们不单有知识,而且已经有了智慧。知识是你所学到的事实和信息,而智慧是如何有效地使用这些知识来解决问题和做出决策。简单来说,知识是“知道什么”,智慧是“知道如何做”。

以上,是我这个阶段对训练基座模型过程的理解的一个高度简化的概括。部分类比过于简化,可能会导致对技术原理的误解,大家将就着理解吧。

现在重头戏来了。让我们用同样的方法训练一个懂得在真实世界驾驶汽车的“黑匣子”吧。

首先是训练材料,这次没有什么“大展身手”、“大展宏图”了,只有:

“你停在中间车道白线前,前面30米离地高度10米有个显示红色的交通灯,紧挨着你的右车道距离2米有一辆车,左面方向有一辆来车,两点钟方向35米开外的人行道上,有三个小孩牵着一条长得很像猫的狗,路的另一边。。。(一万五千字省略)”

把以上的文字输入黑匣子,让它尝试输出0.5秒后的情景,它输出:

“你越过白线前进了5米,来到十字路口中间,前面25米离地高度10米那个交通灯依然显示红色,紧挨着你的右车道的车,它原地不动,左面方向的来车前进了5米,两点钟方向30米开外有三个小孩牵着一条长得很像猫的狗沿着人行道前进了一米,路的另一边。。。(一万五千字省略)”

因为这个输出是一个“冲红灯”的输出,这明显是一个“错得多离谱值”很高的一个输出。于是你去拧那亿万个旋钮,让它错的没有那么离谱。

接下来的事情大家都熟悉了,不断的输入,不断的拧旋钮,日以继夜,海枯石烂。。。有一天,你惊觉,当你输入上面的同一段文字,它输出:

“你依然停在中间车道白线前,前面30米离地高度10米那个交通灯依然显示红色,紧挨着你的右车道的车,它原地不动,左面方向的来车前进了5米,两点钟方向35米开外有三个小孩牵着一条长得很像猫的狗沿着人行道前进了一米,路的另一边。。。(一万五千字省略)”

大彻大悟了,这就是大结局了?

但你说不对啊,车上摄像头只产生视频不生成文字呀,怎么才能转换成上面这段一万五千字的描述?

其实,这几十年,自动驾驶领域研究的就是物体识别,就是把一帧一帧的视频里面的物体识别出来,这个是汽车,这个是交通灯,这个是小孩,这个是猫。。。哦不,这好像是狗。然后很多厂家还用雷达或者激光雷达,得到一些物体的距离,如果视频的物体和雷达的物体吻合,就熔合在一起,成为视频上那个物体的距离数据。

但是,请注意,但是,开篇的时候我们提到,直到自然语言基座模型训练出来之前,人们总是痴迷于研究如何教会机器什么是名词,然后教会机器名词是怎么变复数的,因为人们不可以想象不教机器语法,机器也会输出语法完美的文字。

那人们痴迷于研究如何教会机器什么是车什么是小孩什么是猫狗,然后教会机器那些车,小孩和狗是如何走的,他们通常走多快等等,是不是也是不可以想象不教机器这些,机器就不知道如何驾驶呢?其实,如果有一个自动驾驶的基座模型,就不需要教机器识别物体了。就如同不需要教GPT语法。

基座模型不需要那一万五千字的输入,那它需要什么输入?它需要各个方向摄像头的原始感光数据(photon count)。

你说这有点扯吧。那些感光数据都是一长串人类无法看懂的0和1,连我们人类,都得先通过图像处理,才知道拍的是什么,若人类不帮忙,这黑匣子怎么从这串0和1之中分辨出里面的车啊人啊猫猫狗狗?别天真了,当你输入“大展身手”给黑匣子的时候,你以为它真的懂得你输入的是中文?对于它来说,也就是一长串0和1,跟人类看到的自以为是中文的输入没有半毛钱关系。

输入不再是文字而是感光数据,那输出呢?很简单,输出同样是感光数据。

那拿什么去跟这个输出比较,从而得出“错得多离谱值”?也很简单,安全的人类司机的驾驶数据。找真实记录的人类司机某一个时刻的原始感光数据作为输入,让黑匣子猜0.5秒之后的感光数据输出,然后对比人类司机驾驶0.5秒后的感光数据,就可以得出“错得多离谱值”,然后就可以拧那亿万个旋钮降低那个值,然后日以继夜海枯石烂。。。

下图看似是特斯拉七个摄像头在某一个时刻拍下来的。但其实不是,这是输入了一组真实的七个摄像头记录的感光数据之后,让“黑匣子”猜想下一个时刻(例如0.5秒后)七个摄像头最有可能看到什么。这七幅图都是生成出来的!

source: [CVPR’23 WAD] Keynote – Ashok Elluswamy, Tesla

你可能会问,这种生成下一个时刻的路况不难啊,游戏机上面的赛车游戏不都是这样生成一帧一帧的路况图吗?关键的不同是,赛车游戏是一行一行的代码调用Unreal或者Unity之类的图像引擎,按照一定的物理模型计算视野内每一个显示的物体的下一个位置。但用这个特斯拉的基座模型,没有代码,没有图像引擎,没有物理模型,没有物体,没有位置。。。这七幅图就像是我们画水彩画那样画出来的!

百模大战?

先假设特斯拉这种建立基座模型的路是真的走通了,接下来会不会像语言模型领域那样,出现百模大战呢?我的结论是不太可能。

首先是训练数据的来源。预训练的一个关键就是大量高质量的数据。对于训练自然语言,这数据基本是开源免费可用的。例如前几天发布的Falcon 180B,训练用的85%的数据是来自RefinedWeb。大量高质量的车载摄像头原始感光数据,现阶段特斯拉拥有超其他车厂几个数量级的数据。除非事实是,训练一个基座模型远远不需要特斯拉现有的数据量,又或者人工合成模拟数据就可以足够训练一个基座模型;否则,这个坎很难逾越。在GPT的时代,有不少团队是用GPT来生成人工合成文本来作为训练数据的,虽然训练出来的模型就是GPT的“学生”,但效果也很好。有必要的话,特斯拉自己可以这样训练,然而其他团队想用特斯拉生成的数据来训练自己的基座模型,那就要等到特斯拉开源模型或者提供付费驾驶模型调用服务的时候了。

然后就是训练数据的规模。对于自然语言,训练数据就是文本,TB级别的高质量数据就已经是整个互联网了。一个团队花点钱,买个云服务的GPU,花个一千几百万美金,吭哧吭哧的就训练完了。但视频原始(未经压缩)数据,小小一段动则几个GB。数据不能放在硬盘训练的,最好就是在GPU/TPU里面,不行也要在RAM里。特斯拉现在有PB级别的“热”存储。连互联网软件大厂都没有几个有这个规格的配置,不用说车厂了,那小团队就更别想了。

接着就是算力。跟上面一点类似,特斯拉的算力已经是对标互联网大厂的了。

那互联网大厂和车厂强强联手有戏吗?那需要天时地利人和。共同的愿景,超一致的决策,长时间的无缝合作,无条件的彻底给对方免费分享行车数据,和免费提供昂贵算力,而不问自己还是对方获益更多,推心置腹的信任,绑在一条船上的决心。。。

最后的最后,杀手锏是影子模式。这个模式很直白,就是如果车是人类在驾驶,自动驾驶就会在一旁预判,像个“影子”一样。当预判决策和人类司机的实际操控不一致,如果那人类司机是个“好榜样”,这一次操作就成为很好的“学习”数据。当然,影子模式更恐怖的使用方法是,自动驾驶系统在驾驶,下一个版本或者下一代的自动驾驶在一旁预判,出现预判不一致,就可以认真研究一下这两代自动驾驶,在这次操作上到底谁更优秀。闻到了AlphaGO Zero的双手互搏的味道了吧?这里已经没有人类的驾驶经验什么事了?可能是我孤陋寡闻,根据能找到的去年的一篇知乎,除了特斯拉,还没有其他车厂的车标配影子模式。要部署如此庞大数量的装备了影子模式的车辆到路面进行真实驾驶,其他车厂需要不止三五年。

当然,我是很不希望看到一家独大的,良性的竞争才能催生创新。真心希望各路英雄,八仙过海,寻找到突破口。

一些反直觉的引申

例如,它可以在不懂英文的情况下,按照路面标识行车,就算标识上写的是英文。如果是STOP它就停,如果是No Right Turn On Red,它红灯时就不去尝试右转。虽然它就是看懂了,但它就是不懂英文。

它自己决定行车速度。在老马的v12演示中,他一直把时速设在85英里。然而车子会根据沿路看到的限速牌,结合当前的路况和自身的车况,自行决定安全且合理的行车速度。

它自己决定行车路径,不需要高清地图,甚至不需要地图。新时代的司机可能会觉得这很扯,没有导航,甚至没有地图,怎么开车?!其实就在不远的二十年前,我当时在多伦多开车就是没有导航的。车上有纸质地图也大多数时间放在后备箱,除非你是在附近送餐的,一般是不需要查地图的。知道自己的出发地,如果去的是一个没去过的新地方,出门前大致查看一下要使用哪条高速,下了高速出去怎么拐,离目的地大概有多远,就可以出发了。沿路靠的是大方向和路上标识的指引。当然了,有时候会走错,饶一点弯路总能很快找到。其实就算现在,你如果在一个稍微有点规模的地下停车场,想要开出去,基本也是靠回忆自己进来的路径和方向,主要靠标识,慢慢的也开出去了,你总不可能上去问物业要一份停车场地图吧。当然了,有地图的指引,还是省很多弯路的,所以自动驾驶还是会参考地图。但估计对驾驶决策的权重会很轻,真的只是“出发时瞅一眼,走丢了拿出来看看”那种权重。

对这个使用地图与否的情况,再从通用人工智能(AGI)的角度多说一句。一定要地图的自动驾驶和不一定要地图的自动驾驶看似只是地图的区别,其实有着质的不同。由基座模型提供驾驶决策不依赖地图的自动驾驶,代表着的是一个智能代理(agent),是给任务就去执行,是仅掌握了驾驶知识和拥有驾驶智慧的区别。再直白点举例,如果你是一个老广州,但最近三十年都住在外地,现在回到广州,拿着三十年前的广州地图,你是依然有办法从白天鹅开到华南植物园的,可能有点绕,可能你走人民路东风路而不走内环路。但传统的自动驾驶,靠这张三十年前的地图,很有可能是到不了的,因为有些路改道了。然而拥有基座模型的自动驾驶就如同老司机那样,一定可以。

还有比较反直觉的就是,大部分的bug,修复它们并不需要改任何代码。而是用更多的类似路况在基座模型的基础上微调(还记得那些旋钮吗?)但不用亿万个旋钮都拧,拧其中很小很小一部分就可以了。然后每隔一段时间,例如一年,重新训练新的一代基座模型,就如同GPT3到GPT4。这种代际更新,需要的频率会越来越低。

好了,如果你竟然看到这里,谢谢!

硅基人脑

如果GPT4这样的模型的推理(inference)的能耗,也包括延迟都可以降低三个数量级,当前在使用或者训练中的99%的单一用途模型都没有存在的意义了。如果在这个基础上,参数量和token数各自再提高一个数量级,这个时候,AGI的威力就彻底体现了。因为约等于制造了一个硅基人脑。其实没有什么悬念,现在剩下的都只是工程问题而已。

世界需要两种通用人工智能

一种人工智能A,是用来跟人对话的,需要最贴心的人文关怀,需要政治正确

另一种是人工智能B,用来跟真实世界对话的,需要逻辑和推理,只需要正确

先看一下例子:

我把昨天的自己的一篇博客,《编程范式转移以及其他一些》,分别给了GPT4和Claude看,然后问他们的看法,以及给文章内容打个分。但我问它们的时候,用了三种不同的引导。除此之外,我给它们看的三次都是完全博客原文,只字没改。

可以看出来,无论GPT4还是Claude,都是见人说人话的。

这其实就是对齐(align)的效果,OpenAI用了六个月时间才“对齐”好GPT4,让他能见人说人话,或者说政治正确。

我绝对没有觉得对齐是不好的。恰恰相反,我觉得ChatGPT之前的很多走进大众的视野的AI,就是因为没有对齐好,没能做到政治正确,没有能掀起这波澜,以致拖延了这么久,才能最终让大家了解并尝试接受这种AI。OpenAI这六个月里,做了最艰难而且最有贡献的事情,所以我很看好OpenAI的团队,说他们恰好冲破了大语言模型的涌现临界点是运气,那这六个月专注于对齐的战略绝对不是运气,而更多的是勇气和耐心。

说跑题了。

但仔细想想上面的截图,作为一个跟我对话的AI,它是很有用的。但若是作为文章评论员,或者给学生作文打分的老师,这种见人说人话的墙头草,是很糟糕的。

换句话说,对齐好了的AI,不再能正确了,至少不再能确保正确了。

坦白说,这几个月虽然人工智能的发展可谓惊涛骇浪,但我一直期盼并预想会在这几个月就会发生的却还一直没有发生,那就是我预计在过去几个月,GPT4就至少已经能帮人类发现一个新的物理定律,又或者帮人类证明或者证伪一个数学猜想,结果却只是帮大家写写周报,改改代码。

所以回到本文开头说的,这个世界,需要两种AI。而且两种人工智能都要不断发展。人工智能A为人类生活遮风挡雨;人工智能B为人类科学添砖加瓦。

现在看来,马斯克说他自己要弄的TruthAI,其实就是人工智能B。因为他需要的是一个钢铁侠的贾维斯,告诉他想造火箭去火星,就需要改用这种新材料,新材料是这样这样合成的,星舰要做成这个形状,然后其实不用飞八个月,人类一直以为的信息传递不能超光速只是在一个局域里面的限制,只要根据这个定理和这个推论,就能绕过一直以来的极限。。。而马斯克要的不是另一个贾维斯,开口就讲,总的来说,马斯克您这个星舰计划很有前瞻性,但是需要不断努力试错,方能成就大业,我期待您未来的更大成功。。。

好的,总的来说,我们的世界既需要人工智能A,也需要人工智能B。

(全文都是本人一字一句写的,没有找AI帮忙,甚至最后一句也是我自己想的)

Planning for AGI and beyond 深度解读 – 写在GPT-4发布之前

原文:https://openai.com/blog/planning-for-agi-and-beyond/

Planning for AGI and beyond 规划AGI及其以上发展

先看标题,请注意,讨论的已经不是现在大家在调戏的AIGC(人工智能生成内容),而是AGI(通用人工智能)。突然开始提到AGI了,这是一个包括人工智能的很多同行在内的觉得比可控核聚变更遥远的存在。

Because the upside of AGI is so great, we do not believe it is possible or desirable for society to stop its development forever; 由于AGI的优势是如此之大,我们不认为社会停止其发展是可能或可取的;

一笔带过地鄙视一下现在一些学校和机构的决定,鸵鸟的头不要埋太深了。

and of course our current progress could hit a wall, 当然我们当前的进展也可能遭遇困境

使用could,所以从反面证明了GPT-4进展并还没有遭遇困境。

we acknowledge that what seems right in theory often plays out more strangely than expected in practice. 我们承认理论上看起来正确的东西在实践中的表现往往比预期的更奇怪。

“理论上看起来正确的东西“指的是什么?理论上只有人类才会思考、才懂推断,才有感知,才能用一个领域的经验去帮助完成另一个领域的事情。例如,你小时候从椅子上摔下来知道痛,长大之后开着车,不需要真的摔下悬崖才学会那样做会死人。但现在的自动驾驶的人工智能理论上是不可能不经过这方面的训练就“理解”不能开下悬崖这件事的。这些理论上看起来都很正确。难道有些在实践中表现比预期的奇怪?

we want to deploy them and gain experience with operating them in the real world. 我们希望部署它们并在现实世界中获得操作经验。

GPT-4会发布的(无论多么“神奇”)

A gradual transition gives people, policymakers, and institutions time to understand what’s happening, 逐步过渡为人们、决策制定者和机构提供了时间来了解正在发生的事情

意思是,大家这段时间已经闪瞎了眼睛。但他们觉得接下来发布的,人们仍然需要时间去适应。

and like any new field, most expert predictions have been wrong so far. 就像任何新领域一样,大多数专家的预测到目前为止都是错误的。

这是一份关于AGI的声明,大多数专家是怎么预测AGI的?但到目前为止都是错误的又意味着什么?

Some people in the AI field think the risks of AGI (and successor systems) are fictitious; we would be delighted if they turn out to be right, but we are going to operate as if these risks are existential. 一些人认为AGI(和其后继系统)的风险是虚构的;如果他们证明是正确的,我们将非常高兴,但我们将继续运作,就像这些风险是存在的一样。

这语气是,我现在不打你脸,等日后你自己啪啪打自己。隐约透露已经摸到了AGI的轮廓了。

Second, we are working towards creating increasingly aligned and steerable models. Our shift from models like the first version of GPT-3 to InstructGPT and ChatGPT is an early example of this. 其次,我们正在努力创造越来越协调和可控的模型。我们从第一版GPT-3模型向InstructGPT和ChatGPT模型的转变就是其中的一个早期例子。

所以GPT-4是继续沿用“大量人工标注去训练奖励模型,然后用奖励模型去无监督训练生成模型”。怀疑会不会再套一层套娃:用大量人工标注去训练一个“训练奖励模型的奖励模型B”,然后用这个模型B去无监督训练奖励模型,然后再无监督训练生成模型?

but that within those bounds, individual users have a lot of discretion. 但在这些范围内,个体用户有很大的自由裁量权。

暗示模型更方便迁移?

The “default setting” of our products will likely be quite constrained, but we plan to make it easy for users to change the behavior of the AI they’re using. We believe in empowering individuals to make their own decisions and the inherent power of diversity of ideas. 我们产品的“默认设置”可能会相当受限,但我们计划让用户轻松更改他们所使用的人工智能的行为。我们相信赋予个体做出自己的决策的权力,以及多元化的思想的内在力量。

改动默认设置,就可以生成一些社会伦理舆论道德等不允许生成的答案。现在很多时候当chatGPT回答你“作为一个AI语言模型,我怎么怎么“。其实潜台词是,如果你允许我说,我有另外一个答案。这个答案其实无论”错“的多么离谱,我猜在绝大部分情况下,都是一个值得知道的答案。当AlphaGo下出那步不入任何流派的子的时候,让世人知道那个”错“的答案是我们一直以为是错的而已。

We have a cap on the returns our shareholders can earn so that we aren’t incentivized to attempt to capture value without bound and risk deploying something potentially catastrophically dangerous (and of course as a way to share the benefits with society). We have a nonprofit that governs us and lets us operate for the good of humanity (and can override any for-profit interests), including letting us do things like cancel our equity obligations to shareholders if needed for safety and sponsor the world’s most comprehensive UBI experiment. 我们设置了股东回报的上限,以便我们不会有无限的价值捕获动机,并冒着部署可能具有灾难性危险的东西的风险(当然也是与社会分享好处的一种方式)。我们有一个非营利组织来管理我们,让我们为人类的福祉而运营(并可以推翻任何营利利益),包括让我们做一些必要的安全措施,例如取消股东的股权义务,并赞助全球最全面的UBI实验。

暗示不为任何企业效忠,跟微软的合作是且行且珍惜。

We think public standards about when an AGI effort should stop a training run, decide a model is safe to release, or pull a model from production use are important. Finally, we think it’s important that major world governments have insight about training runs above a certain scale. 我们认为公共标准,例如何时停止训练一个AGI,决定一个模型是否安全发布或撤下一个模型,都是很重要的。最后,我们认为重要的是世界主要政府对于一定规模的训练运行有所了解。

不看上下文,还以在谈论各国的核竞争。是不是已经有些模型游走在需要“停止训练”的边缘呢?

The first AGI will be just a point along the continuum of intelligence. We think it’s likely that progress will continue from there, possibly sustaining the rate of progress we’ve seen over the past decade for a long period of time. 第一个AGI将只是智能连续体中的一个点。我们认为进展可能会从那里继续,可能会在很长一段时间内维持过去十年所见到的进展速度。

量变导致质变,之后继续量变?

We think a slower takeoff is easier to make safe, and coordination among AGI efforts to slow down at critical junctures will likely be important (even in a world where we don’t need to do this to solve technical alignment problems, slowing down may be important to give society enough time to adapt). 我们认为较慢的起飞更容易做到安全,并且协调AGI的努力在关键时刻减速可能会很重要(即使在我们不需要这样做来解决技术协调问题的世界中,减速也可能很重要,以便让社会有足够的时间适应)。

一而再再而三的强调要减速,甚至可能需要停止。相比之下,其他公司天天在喊加速,红色警报。如果不是单纯的在圈里凡尔赛,就一定是遇到怪物了。细思极恐。


几点声明:

  • 所有中文翻译出自chatGPT,一字没改
  • Sam Altman是另一个马斯克,都是画一个难以实现的愿(大)景(饼),让最有热情的一群人投身其中,不计日夜,不论得失。
  • 凡是这种深度解读就是过度解读,看看就算。如果日后回顾,有那么一两点猜中了,对自己刮目相看就多个理由了。

[Notes] World AI Conference, Elon Musk vs. Jack Ma

如果谁要“鸡同鸭讲”的官方解释,你就播这个视频给他看。哈哈。

我觉得吧这两个马老板放在一个论坛上就是笑话。

马斯克讨论的是广义的人工智能,指的是输入输出信号处理那个层面的。马云说的是当前的某种人工智能或者由当前的人工智能延伸出去的更智能的人工智能,执着于是不是动物,有没有一个心脏,跑得快不快。

E: Can chimpanzees really understand human? …we just like strange aliens. They mostly just care about other chimpanzees…if the difference is only that small, it will be really amazing. probably is much much greater.

E: We are already a cyborg. Because we are so well integrated with our phones, internet, the phone is almost like an extension of yourself. If you forgot your phone, it’s like missing limb.

J: It’s so hard to predict the future. 99.99% of the predictions that human being had about the future are all wrong…they are right by accident.

E: You can think of humanity as biological boatloader of digital super intelligence.

J: when human understand ourselves better, then we can improve the world better…but I feel what I am excited about AI is AI is to understand people, the inside of human beings.

J: …at that time, we will have a lot of jobs that nobody wants to do, so we need AI, robots to…

下面这一幕真的很搞笑。马斯克开始凝视远方,嘟哝道

E: we are gonna figure out this neuralink situation; otherwise we will be left behind…we don’t have much time.
J: we don’t have much time? For what?
E: we don’t have much time to solve neuralink.
J: ug….(甩手并作不屑状)

马斯克正在跟三体人对话。马云突然觉得这神经病怎么不好好说人话?!哈哈哈。。。

有时候我在考虑一个格局问题,当然只能猜想,站在人类财富的最高峰,中外最有钱的那群人,每日心心念念的事情,每天贪早摸黑的目标,在格局上有没有区别,如果有,又有着什么样的区别?盖茨投身于没有经济效益的贫困地区的疫苗;贝索斯建万年大钟;马斯克星际移民。。。都是一些笨事傻事蠢事。然而,美,永远是由距离产生的。这些离他们自身那么遥远的事,或许是他们认为的最美的事。

J: educate people on…creative things that let people live like a human being…we need to change the education…and don’t worry. I will change it.

E: current education is really slow, low bandwidth.

另外,用逻辑去自圆其说。马斯克用了各种论证方法,现场完胜。可能跟中西教育的不同有关,因为外国教育重视正确的论证过程,而国内重视正确的结论;也可能跟是不是卖百货有关,因为我觉得马云和贝索斯在现场论证中常出现逻辑问题。

E: biggest problem the world will face is population collapse (accelerating collapse).

J: I agreed.

什么原因担心人口问题,两人没有继续深入,我倒是很好奇?

J: when we love someone or something, we don’t need a reason, we just love. But we hate someone or something, there is a logic behind it. When there is a logic, AI can do better.

E: it’s a good thing that we eventually die…it’s good to have this life cycle.

“Tesla autonomy day” 记录和想法

Single vendor, move fast, tighter integration, easier regression test, less compatibility bugs. Every year from now, the performance charts will like the ones shown in Apple events. Chip is for self-driving focused, and then software is just for that chip.

特斯拉走的是苹果的路,就是所谓的walled garden。没有好坏。在这个阶段,无疑是可以缩短迭代周期。真心觉得特斯拉能私有化就更加完美,现在花太多精力在跟short sellers打嘴仗了。

这几年媒体报道都集中在model 3的产能和交付上,我以为特斯拉没有花心思在自动驾驶上,比较失望。因为我觉得推动电动汽车方面,特斯拉已经完成了历史使命。如果不去发展自动驾驶,那特斯拉可以从我视线消失了。没想到马斯克这个大嘴巴,能把在自动驾驶方面的突进守口如瓶,也是一个城府很深的人。

All production cars at this moment have the new computer installed.

这又是跟马斯克先狠吹的作风很不符,已经在路上跑了也不说,看来特斯拉完成了华丽转身。当各大厂还在讨论2020年推出第一款长续航电车的时候,特斯拉实际已经离开了那个战场。现在新战场的对手是waymouber。马斯克每次在新战场都很沉得住气的(参考spacexboringneuralink, starlink)。

“Anyone relied on LIDAR is doomed”.

The justification was that human beings drive with vision, not the laser. So autonomy can do the same. My argument would be, humans use vision, drive and kill 3,287 people every day. Don’t think Tesla autonomy affords to kill even 3 people a year. 同时,我也认同LIDAR的必要性不高。LIDAR可以解决很多由于探测精度带来的问题,但我很怀疑在当前特斯拉自动驾驶的诸多挑战里面,那些由探测精度引起的问题排不上前三,甚至排不上前十。与此同时,多个摄像头和硬件加速,可以一定程度代偿探测精度的不足。当简单的结构大量叠加,配合一定的算法,达到足够的冗余容错,可以逼近甚至超过复杂的单个系统。例子很多,简单的几种门电路组成的集成电路,低性能的廉价pc组成的强大的云计算,最近流行的深度学习。

Data collection is about large/various/real

Only annotate the better drivers.

纳闷特斯拉怎么定义better driver,好在哪里?这又从另外一个角度论证了特斯拉一定要卖保险给特斯拉的车主,从统计意义上的数据,理赔少的,基本就是better drivers了。

Robotaxi

Robotaxi是华丽转身,前面提到,我就不多说了。汽车本来就是一个把你从A点带到B点的移动铁箱而已,只是一个世纪的广告洗脑,汽车变成身份象征成功标志。当汽车作为一个容器,回归本质,拥有它的代价会不成比例的高时,可能只有王思聪可以养得起车了。

最后,我想了一下,如果真有私人车辆组成Robotaxi车队的日子,最大的痛点是什么?应该是儿童安全座椅。所以,快速适配特斯拉座位且可以方便折叠收纳的儿童安全座椅,销量会不错。当然了,那之后过不了多久,安全座椅甚至安全带,都会如同当年进电脑机房要穿的白大褂和要换的拖鞋一样,成为承载一段历史的物件。

道德绑架科技

美国驾照笔试有这样一题:

当你刹车失灵,你应该选择撞向:A)前面的路人;B)左边的动物;C)右边的加油站油桶

你的回答是?

你考的时候没有遇上这一题,是你走运,因为正确答案是D(文末揭晓)。

好了,其实至今交通部还没有出这么变态的道德题,若一定要答对类似以上题目,才能拿到驾照,没有哪个人有资格开车。

但奇怪的是,现在有人要求自动驾驶系统必须答对以上问题,才有资格上路。

德国最近出台一套自动驾驶规范框架,明确指出,自动驾驶算法必须做到,不惜牺牲动物和建筑,保证人员伤亡最低。

这种立法,出发点是好的,执行起来是不实际的,长远来说是危险的——道德绑架了科技。

先别考虑动物和建筑,光立法要求在技术上要做到所谓的“保证人员伤亡最低”,本身就是一个笑话。

想象一个场景,你的自动驾驶汽车刹车失灵,前面是路人,左右都是悬崖,让我们展开思想实验。

车上只有你一个人,前面是两个路人,为保证人员伤亡最低,你的车子于是一头栽下悬崖。

且慢,为求不死,你一般都是拖家带口出门凑人数的,还恨不得把整条村的人都带上,尽管道德上讲并不高尚,但保命要紧。因此以后大家买的都是7座车,或者17座车,又或者是170座车,反正出门人多更安全。

笑话现在才正式开始,我带大家看看具备执行“伤亡最低”能力的车都要装备一些什么黑科技。

1)要知道车上当前载客量,车子应能准确自动感应人数

2)应能感应孕妇,加一人,如果双胞胎,加两人,如此类推(好强大的隔空超声波)

3)怀胎十月算一个人,那怀胎十天呢?十个小时呢?十分钟呢?这已经不是技术问题,而又是另一个道德难题。当然人无法“正确”回答的这一题,我们又可以一如既往的要求算法去正确解决。

4)要知道前面可能被撞的人数,车子要精确遥感,当然了,要做到伤亡最少,当然又要遥感孕妇和双胞胎等(越来越黑的科技)

5)要做到伤亡最少,还需要建立各种数学模型,去模拟各种情况,例如路人是站着还是迎面走来,骑车的还是走路,年轻力壮还是老弱病残,如果是人群的话,是一字排开还是方阵。一切都需要精确建模,才可以预测如果真选择撞人的话,伤亡的结果。这又是很黑的科技。

6)当然了,栽悬崖的伤亡也同样需要类似的算法。考虑的因素还得包括落差高度,山坡斜度,树木的数量,树木种类,当时风向,不一一罗列,反正也是很黑的科技。

所以立法要求自动车必须正确做出“伤亡最少”的决定,看上去很高大上,实际完全不可能实现,只是粗暴的用道德去绑架科技而已。

其实如果再加上考虑要求自动车先牺牲动物和建筑,也同样存在各种道德和技术的问题。

1)如果那路人是刚从刑场逃出来的死刑犯

2)如果那动物是一条在灾区救过很多人的搜救犬

2.5) 如果那是你家的狗

3)如果那动物是濒临灭绝的

4)如果那动物是万圣节装扮成可爱熊猫的小孩

5)如果那建筑是油站(牺牲建筑的同时,可能牺牲车里的人和建筑物里外的人,于是又要建模,撞什么建筑,怎么撞,会有怎样的伤亡,黑科技)

《三体》里面最后人类唯一可以幸免于难的方法,就是制造曲率驱动的飞船,但是因为在道德上通不过,结果还没研究出来,被严禁了。小说描绘的就是现实生活中的这种道德绑架科技。

简单的说,就算发明了下水救人的机器,也要机器正确回答“先救老婆还是先救老妈”,否则,就算眼睁睁看着淹死人也不能让机器乱救人。

其实,现在的深度学习,人类负责提供样本和标签,甚至人工智能自己去总结,很多时候我们只得到一个最优结果,但并不了解机器做出这种选择的依据。所以提出要先撞动物再撞人的规定的人,还停留在程序员一个一个条件编程的思维框架。

以我现在有限的了解,和在可见将来的科技发展,我们只需要要求自动驾驶的人工智能做到:尽最大努力不发生碰撞和坠落,永远不主动去挑选碰撞目标(除非那本来就是用于碰撞的,例如下山的紧急缓速路障)。

这并不完美,从道德上,这种设是把乘客的生存放在比较高的优先级。但其实百多年来,车的设计就是优先车内人员的,否则车身就不用金属而用棉花。想象一辆车的卖点是“无论乘客伤得多重,保证车外的人和物毫发无伤”,你会买吗?

十年以后,驾照笔试真的会有这样一题:

当你刹车失灵,你应该选择:。。。

记得要钩选 D)马上开启自动驾驶功能。

那时候,答错了这题,可就拿不到驾照了,呵呵。