We,Robot 解读

这是我在特斯拉 Robotaxi 发布会之前的一些预测:

2025

  • 新车款(错,2026 才有)
  • 不对民众销售(错,会销售,估计价格在 3 万美元以下)
  • 服务在定点几个城市推出,这阶段跟Waymo类似(错,发布会提到将在加州和德州上线)
  • 特斯拉独立运营,不跟现有网约车平台合作(对,至少发布会上没提合作)

2026

  • 全美范围内推出 Robotaxi(错,还是加州和德州)
  • 老百姓的特斯拉加入 Robotaxi(对,特斯拉车主可以使用无监督 FSD)
  • FSD 开启时,理赔和事故责任特斯拉承担(未知,稍后分析)

我之前的预测逻辑是这样的:

2025 年初,特斯拉会在 FSD 下一个版本(v13)的基础上调优(fine tune)一个针对旧金山的模型,先用几百辆 Model Y(工厂的测试车),把这些车投入旧金山市场,对标 Waymo。这一阶段的目标是解决 Robotaxi 运营中不涉及无人驾驶技术的问题,类似于网约车平台需要解决的运营问题。

2025 年底,特斯拉会开始批量生产 CyberCab,正式投入使用。

2026 年,主要的运营问题基本解决,特斯拉会开始让普通车主的特斯拉加入 Robotaxi 车队。

现在看来,我忽略了一个重要的时间节点:无监督 FSD 的“毕业”时间。所谓“毕业”,是指特斯拉认为 FSD 达到安全标准,并且监管部门也同意它上路。在这个时间点之前,特斯拉的 Robotaxi 不可能开始运营。

什么时候特斯拉觉得自己行了?

当特斯拉愿意为无监督 FSD 启动后的所有责任和理赔负责时,就意味着它对技术有足够信心。有人可能会问,这会不会让特斯拉赔到破产?按照老马的说法,未来无监督 FSD 上车后可以直接睡到目的地。如果这时候还发生责任事故,特斯拉赔的只是钱,司机和乘客赔的可是命。换句话说,如果特斯拉不愿意承担全责,那说明它自己也认为 FSD 还不够可靠。

监管部门什么时候会认可?

其实这就简单了。Waymo 是怎么获得旧金山的无人车运营许可的?特斯拉就可以怎么操作。最关键的就是积累足够的安全驾驶里程。Waymo 官网说它至今已经累计了数千万英里的安全驾驶数据,这几乎相当于特斯拉 FSD 车队一天的里程数。哈哈。

根据我对模型训练的了解,以及当前 FSD 的使用,我认为,只要继续用大算力训练模型,就能打磨出无监督 FSD。不需要等待新的算法突破或模型范式转移。当然,新的技术突破会加速这个过程,但不是必要条件。

按照特斯拉目前的算力增长速度和路上测试车辆的数据积累,每个季度都能迭代一次基座模型。到 2025 年底,我个人这个小样本,能碰到的 FSD 处理不了的,属于极端情况,几率将接近于零。几率应该相当于遇到 ChatGPT 出现拼写错误一样。网上有传闻,但我从没见过。再等到 2026 年,无监督 FSD 将正式“毕业”。

让我困惑的另一点是,特斯拉为什么要推出 CyberCab?

按照马斯克昨天给出的时间线,这款车是在普通特斯拉车主的车辆已经参与 Robotaxi 运营之后,才姗姗来迟,推出上市的。等到 CyberCab 产能上来的时候,估计普通车主的车已经撑起了特斯拉 Robotaxi 的大半江山了。那么,为什么还要推出 CyberCab?我能想到两种可能:

1. 通勤问题

Uber 的 CEO 最近提到,特斯拉的 Robotaxi 解决不了美国上下班通勤的刚需。现在每一辆特斯拉私家车,几乎都是每个家庭的通勤主力。如果车主自己要用车通勤,那上下班高峰时段哪里还能有空闲的特斯拉来跑网约车?所以,CyberCab 可能是为了解决这个问题。两座设计也解释了为什么它专注于短途(小电池)和通勤(一到两个人)的需求。

2. 加速 Robotaxi 计划

特斯拉可能想尽一切办法加速 Robotaxi 的布局,想动用一切可以动用的资本。路上跑的无监督 FSD 车辆越多,Robotaxi 的推广就越快。但造车需要大量资金。现在每一个买特斯拉的车主,都往路上添加一辆将来的 Robotaxi,在某种程度上是在变相“资助”特斯拉的 Robotaxi 推广。可是,当前汽车销量下滑,且如果 Robotaxi 真能实现,谁还会去当冤大头?买车不仅要承担购车款,还要负担保养、维修、保险以及车辆贬值,不如不买车只坐 Robotaxi。大家都不买车了,Robotaxi 又该怎么快速铺开?于是,特斯拉可能需要一批小企业主来购买 CyberCab 做无人出租车生意,作为 Robotaxi 的加盟,买几辆也好,买几百辆更棒。这款两座小车只需要小电池,整车成本低,能耗也低,充电快,金属外壳保养容易,非常适合作为一个起步车型,用来吸引加盟资本。

我认为,除了 AI 和制造(比如车和机器人),马老板并不希望特斯拉涉足太多其他领域。他不会让特斯拉在 Robotaxi 的整个生态上大包大揽,而是只掌握住无人驾驶技术的核心软硬件部分。至于其他运营细节,走一步看一步。正因为这种“毫无章法”,才导致很多人看完昨天的发布会后,感到失望。

一个不错的LLM benchmark?

字母拼单词的能力或许是一个不错的测评标准。

例如,i t r g a e w n 这八个字母可以组成什么单词?全部字母都用上但不重复。

对于人类来说,解决这种问题,一般就是凭经验枚举。如果你想体验一下有多困难,可以暂停自己试一下。如果在十分钟内想到答案,我不觉得你英语有多好,而是觉得你蒙的运气不错。

LLM到底是以什么“思路”去解决这种问题的,暂时没有人能解释清楚。

Robotaxi 全国落地过程以及中美差异

标题本来打算用“自动驾驶”一词,我一直以来也都是这样称呼的,但发现如果不明确说明是 Level 几的自动驾驶,大家的定义会有所不同。所以考虑用“无人驾驶”,虽然更精准一些,但如果后台有人在必要时进行遥控,那是否仍算无人驾驶呢?最后决定,本文聚焦于Robotaxi,无论Level几,也无论是否有工作人员实时参与,更不论是否使用高清地图或激光雷达。Robotaxi的落地意味着,大家出行时选择打车,而车辆是没有司机的。

现状

中国,最近武汉的萝卜快跑引起了广泛讨论,体验和接受度都不错,价格比其他选择都便宜。虽然驾驶技术不如经验丰富的老司机,但没有发生重大事故,只有一些小的磕碰。在其覆盖区域内,作为点到点的解决方案,网上没有看到太多异议,已经达到了实用水平。

美国,Waymo 上个月也在旧金山向所有公众开放。虽然我还没有机会尝试,但从网上的视频和评论来看,感觉其使用体验与萝卜快跑处于同一水平。价格与 Uber 相近。

制约

如果中美两家Robotaxi公司已经在各自国家的一座城市成功运营,那么是什么因素阻碍了自动驾驶技术在全国范围内,一夜之间遍地开花呢?以下是详细分析。

技术成熟度。萝卜快跑和Waymo都依赖高清地图和接近实时更新的数据来进行导航。根据网上的视频,Waymo甚至为一个很小的广场停车场都建立了高清地图。要获取覆盖全国各大中小城市的这种高精度和实时更新的地图,即使技术上可行,数据的采集和维护成本也将非常高昂。此外,全国各地的交通状况多种多样。例如,美国一些城市有大量的环形交叉路口,而在华盛顿还有多车道的环形交叉路口。其他城市的天气条件也各不相同,例如雨雪冰雾等,这些都需要纳入模型的训练数据中。而且,这些数据量必须足够大,但又不能过于庞大,以至于导致在武汉和旧金山的驾驶性能下降。只要涉及迭代更新,这就需要时间,不可能一夜之间实现。

经济因素。萝卜快跑和Waymo都是由软件公司主导,与车厂深度合作研发。它们的资金来源主要是资本投资和乘车收费利润。据传,萝卜快跑明年在武汉可能实现盈利。而Waymo至今尚未在剔除研发和车辆成本后,仅凭运营部分实现盈利。因此,它们的扩张主要依赖资本投入。

目前,武汉据传有1000辆萝卜快跑车上路,保守估计有300辆。而Waymo在旧金山也有大约300辆车。中国的网约车数量为680万辆,而Uber目前在美国大约有100万辆车(假设大多数跑Lyft的司机也跑Uber,因此不单独计算Lyft)。如果要确保等待时间不比现在长,即使不考虑无人车速度较慢的因素,也需要大致相同数量的车在路上运行。

让我们来算一下成本。萝卜快跑最新一代车辆的造价为20万元人民币,680万辆的总成本约为1.36万亿人民币,相当于五个百度公司的市值(经过一个星期的大涨,百度市值约为2600亿人民币)。Waymo的造价最低粗略估计为10万美元(找不到最新的公开造价信息,2017年全车激光雷达成本为7.5万美元,但后来成本据说降低了90%),所以100万辆的总成本约为1000亿美元。

虽然这些数字非常庞大,且不是一夜之间能筹集到的,但资本市场的力量不可小觑,众人拾柴火焰高,这或许并非不可能。但从时间上看,即使一夜之间筹齐了资金,明天也不可能立即生产出680万辆车。假设每周生产一万辆,需要到2037年底才能完成;如果每天生产一万辆,大约两年左右可以完成。所以,不可能一夜之间实现。这些估算表明,在美国实现同样的规模,至少需要十年的时间。

法律法规。很多人认为这个因素是最难快速解决的,但我认为只要技术达到一定成熟,且事故率显著低于人类驾驶,一些省份和州就会率先放宽政策,其他城市和地区将难以找到足够的理由不跟进。相反,真正让政府感到棘手、无法一夜之间放开的原因可能是就业影响。然而,就像这两年的人工智能一样,政府在这个过程中也只能在夹缝中顺应潮流,同时试图保持存在感。从本国民众利益出发,或者在国家之间的竞争中,政府都不可能完全阻挡这一趋势的发展。

Robotaxi在中国落地过程

虽然不可能一夜之间实现,但中国的速度也不可小觑。2023年,中国生产了2400万辆民用车。而且,只要有风口,资本就会源源不断地涌入。政府采取“让子弹飞一会儿”的策略,将会使新技术的落地变得更加容易。目前,最大的挑战可能还是技术的成熟度。

具体细节我在之前文章中的“百模大战”一节已经详细讨论过。尽管已经过去快一年了,我的看法依然没有改变。纯视觉的解决方案很难,但没有比它更容易的了。

每一辆Robotaxi背后都有一家软件厂商和一家车厂。车厂负责生产和维护,软件商负责运营和改进。造车成本的主要投资者将在前期运营中分得大部分利润。

由于竞争激烈,领先的软硬件厂商将有半年到一年的时间抢占市场。但由于早期风险较高,资本会相对谨慎,这意味着不可能在全国范围内迅速铺开。因此,在很长一段时间内,将形成地区性的群雄割据局面。

这段时间可能会持续多年,直到最终依靠规模效应将成本压到最低的两到三对软硬件合作伙伴胜出,并使所有其他对手被淘汰。在此期间,公众将有很长一段时间可以享受到接近甚至低于成本的自动驾驶出行服务。

由于群雄割据可能会持续多年,其中的变数不少。例如,一些车厂可能会决定自行研发软件,或软件商决定自己造车。但这些举动并不容易,且影响巨大。瞒着合作伙伴自己研发车辆或全栈训练自动驾驶系统确实非常困难。一旦合作方发现这种情况,双方的无间合作就会受到影响。

另一种合作方式是一对多,但如果你是“一”方,你必须远远领先同行,才能让“多”方被迫选择你。就像当年的手机操作系统一样,因为安卓确实形成无可否认的优势,才逐渐让大家甘心放弃自家的Palm、BlackBerry、Windows Phone、Symbian和Tizen等。然而,一旦形成了一对多的格局,“一”方未必是最赚钱的一方,这可能会让他们心生不满。因此,这些厂商可能会咬紧牙关,决定自行造车,以求更大的利益和控制权。

以上分析了传统车厂负责造车的情况,但不能忽视几个智能造车新势力的影响。

蔚来的Aquila超感系统和ADAM中央计算平台并不完全依赖高清地图,因此一旦技术成熟,可以在全国范围内推广,而不受地图数据的限制。从2023年9月起,蔚来开始在全新EC6车型上搭载这一软硬件系统。虽然没有官方数据,但根据粗略估算,目前路上配备未来支持自动驾驶硬件的蔚来汽车约有15万辆,并且每月增加约2万辆。

小鹏汽车去年宣布采用“轻地图、重感知”的技术路径,开始配备更强的智能驾驶硬件。虽然也没有官方数据,但估计目前配备智能驾驶硬件的小鹏汽车数量已超过10万辆。2024年第一季度,小鹏共交付了21,821辆汽车,虽然比蔚来的交付速度慢,但数量上仍在同一量级。

理想汽车的Li AD Max软硬件系统已经应用于近期的多款车型,并将在7月推出不依赖高清地图的NOA系统。

小米作为新玩家,当前的数据参考意义不大,但绝不能低估雷军的远见和执行力。

在中国,我不确定哪种模式最终会胜出。软硬件合作的厂商采用的是资产重型模式,类似于 WeWork 先租下办公室再分租给他人,这种模式能够更好地控制用户体验和服务质量,但需要大量资金投入并承担更高的风险。而造车新势力则是通过销售汽车给消费者,并利用私家车运营 Robotaxi,这类似于 Airbnb 的模式,更加轻资产,扩张速度也更快。

从时间线上看,我猜测这一过程将由众多玩家参与,逐步推进,预计在2030年实现全国落地。在此期间,竞争将异常激烈,各方将比拼速度、精准度和果断力,看谁能最快、最有效地占据市场。

Robotaxi 在美国落地过程

在前面论述制约因素一节中提到的经济因素,是Waymo不可能在美国短时间内遍地开花的硬伤。要在全美各城市部署足够的车辆,至少需要十年以上的时间,并且需要巨额的初始投资。这恰好触及了资本的两大禁忌。

此时,特斯拉闪亮登场。虽然在旧金山,特斯拉的FSD目前还无法与Waymo相比,差距显而易见,但这个差距相比几年前已经大大缩小。FSD的迭代速度以月为单位不断进步,这个差距在未来只会继续缩小。按目前的速度,预计到2025年底,这个差距将被抹平。

在Waymo尚未运营的其他城市,不确定Waymo是否在进行训练,但至少没有像FSD那样大规模进行实测和调优。作为一个驾驶“智能体”,真可谓 FSD 走过的桥都比 Waymo 走过的路要多。

当FSD技术达到可用于Robotaxi的水平时,美国路面上将会一夜之间冒出了200 万辆 Robotaxi,这相当于目前Uber车辆数量的两倍。尽管不是每个特斯拉车主都愿意将自己的车用于网约车服务,但如果扣除电费、保养和折旧后,它还能帮我赚回车子的月供,相当于免费用车的话,我认为让它跑跑网约车也无妨。

另外,本文的侧重点是中美两国,但也顺便提及其他西方国家,例如加拿大、澳大利亚和欧洲诸国。特斯拉只要达到Robotaxi的技术要求,由于FSD影子模式一直在各个国家和地区的数百万辆特斯拉上默默运行,进行数据收集和模型训练,这些地区只需在发布前进行最后的微调。因此,几乎可以在一夜之间让这些地区的主要城市出现比目前当地网约车数量更多的Robotaxi。

我的猜想是,一旦Robotaxi普及,资本进入的风险将大大降低,特斯拉也会亲自参与其中。到那时,普通民众可能会发现,与其花大钱买一辆特斯拉然后跑Robotaxi,赚不到多少利润,还不如直接使用特斯拉的Robotaxi服务更省心。届时,美国老百姓将不再有拥有自己汽车的理由,美国汽车行业的一个时代将落幕。

特斯拉在美国的销售目前十分不均衡,虽然找不到最新的各州销售数据,但在2022年,加州一个州就占了全国销售的三分之一。要在短时间内占领一个城市的Robotaxi市场份额,与当地Uber车辆数量的对比将是一个极其关键的因素。

Robotaxi 在美国的市场总额

在美国,拥有和使用一辆车的平均每月费用约为$894到$1200美元,这相当于每年约$10728到$14400美元。取平均值大约为$12564美元。这些费用包括:月供、保险、油/电、保养维修、年审废气检测以及贬值等。

每户家庭的平均车辆数量因州而异,但通常在1.7到3.1辆之间。取平均值为2.4辆,那么每户家庭在车辆上的年均花费约为$30,153美元。

另外,还有时间成本需要考虑。例如,换机油、修理故障、洗车等的时间,以及在发生磕磕碰碰时申报保险、修车、租代步车等的麻烦和不便。换言之,对于一个理性的消费者来说,如果不考虑时间成本,一个家庭在Robotaxi上的年开销在三万美元以下,那么他们就没有理由不选择乘坐Robotaxi,而去投资购买私家车。

再换言之,只要特斯拉的Robotaxi服务定价控制在略低于这个金额,它的市场潜力就相当巨大。美国有1.31亿个家庭,那么这个市场总额可达到3.93万亿美元。此外,从A点到B点的这个空间和时间,即使不卖广告,光是提供娱乐、办公、教育等增值配套服务,这也将是一个价值数十万亿美元的市场。

其他竞争对手有机会吗?机会不大。无论是Waymo等重资产型企业,还是Uber等轻资产型企业,都需要解决无人驾驶智能车的供给密度问题。那么,竞争对手能不能集中火力,不考虑整个美国,先解决某几个城市的供给密度问题呢?可以,而且对手们一定会尝试,但结果很可能是吃力不讨好。

道理就如同,假设现在有个大金主愿意砸钱打造一个加州的翻版Airbnb,甚至如果加州也太大,打造一个Fremont的翻版Airbnb,能不能打得过正版Airbnb?如果打得过,那逐步砸钱在全美国打败Airbnb的可能性大吗?不大,因为规模效应决定了利润空间和可持续性。特斯拉没有这个供给密度的问题,因为它已经拥有大量的车辆,且其FSD技术可以在现有车辆上快速部署,从而迅速实现高供给密度。

中美 Robotaxi 差异

中国将经历一个长时间的群雄割据时期,持续许多年。而在美国,特斯拉将一直占据主导地位。

中国的高铁网络覆盖率相对较高,从 A 地到 B 地,如果需要跨州越省,相比于乘坐 Robotaxi,高铁无疑是更优选择。因此,Robotaxi 主要会影响私家车的销售市场。除非 Robotaxi 的价格比公交和地铁还便宜,它才有可能进一步蚕食城市内的公共交通市场。而在美国,由于缺乏高铁网络,长途出行只能依赖飞机和汽车。城市内的公交和地铁通常存在脏乱、缓慢、昂贵且班次少的问题,因此 Robotaxi 将同时影响私家车和公共交通市场。500 英里半径内的出行需求将完全由 Robotaxi 覆盖。

特斯拉的Robotaxi在中国是否可能像在美国那样垄断市场呢?不可能。如果中国有一两家Robotaxi公司能垄断中国市场,那么他们也能垄断美国市场吗?同样不可能。原因是一样的,你懂的。

复盘2023预测

复盘一下去年的预测。四条弄对一条,

2023结束前

经济:继续下行,股市房市最低点下跌20%以上。(如何证伪:美国房屋中位价2022年11月是$393,935,.DJI在1月3日是$33,630。所以房价最低在$315,148以下,.DJI最低是$26,904以下。)

不是下跌20%,而是上涨了12%。方向都错了,硬着陆并没有发生。

人工智能:人类开始疯狂请教于人工智能。如同二十年前通过图书馆搜索信息过度到通过谷歌搜索知识,这次是过渡到通过人工智能搜索智慧。(如何证伪:至少三个重要领域里,由于人工智能教会了人类以前一直没有想到的新思路,从而获得突破性发展)(题外话:不要再天真的认为从事什么创造性的工作就不会被人工智能替代,不远处的将来,人类一思考人工智能就发笑。2022年已经是那个时代的元年。在数字世界里人类将遭遇一场通用人工智能的洗礼,但不用担心,在物质世界里,人类还有很远很长的路可以走。)

至少三个重要领域里因AI有重大突破,一个都没有。方向没错,但进步程度大错。的确有很多细分领域,极大的提高了效率。但我指的是那种,由AI主导突破整个领域的那种范式转移,并没有发生。我大大低估了大家对“对齐”的重视,现在看来,除非对齐的努力失控,否则,AI独立完成理论突破的可能性为零。同时,我也很大程度高估的开源力量可能产生的竞争优势。纯软件的开源只烧人,有那么一伙人肯干就行,而大模型的开源还得烧钱,这开源就无论如何有朝一日归根结底是个投入产出比的问题。

自动驾驶:特斯拉的FSD可以做到城市路段任意三英里两点间80%情况下无需干预进行安全且不尴尬的行驶。(如何证伪?在家附近随机挑选符合要求的五段路进行测试,其中四个路段必须无干预点到点。)(细节:归功于类似InstructGPT的RLHF的使用和Language of Lanes的配合,基本上就是用自然语言处理的当前优势加上更多的无监管学习来解决自动驾驶。)

我还没有拿到v12的更新。但看拿到v12的视频博主的示范,三英里应该不成问题。我更新之后会自己尝试一下。这个预测跟现实很贴近了,而且的确走的就是ChatGPT的基座模型端到端路线。

航天:星舰完成轨道测试并成功回收,正式开始接管猎鹰9成为主要升空载荷火箭。(如何证伪?星舰已经完全替代猎鹰用于发射星链,并接到2024年以后的星舰商业订单。)

星舰并没有完成轨道测试并成功回收。

预测一年之后发生的事情真的太难了。

军棋裁判器

做一个军棋裁判器,一直是小时候的一个想法,现在终于完了心愿。

年初写下这个,年末call back。
希望十年之后,科技发展到那个程度,招一招手,那个谁(机器人),你过来做个裁判。。。具身智能

Grok开箱心得

没花太多时间,只是泛泛的尝试了一些以前问过 ChatGPT或者 Claude 的。一些感觉:

  1. Grok 有多重人格,很分裂,似乎后面有若干个不同的模型,或者若干个不同“对齐”后的模型,在根据不同类型的问题,自动挑选一个人格来对话。
  2. 经常出现“searching for xyz”,但不太确定它是在搜索外网,还是自己的一个 embedding 的知识库,因为在出现这个提示的很多情况下,我问的问题并没有时效性,没有上网去搜的必要。
  3. 在一些试验中,它显示了搜索,在回答底下也出现了一些 X 平台的链接,但是答案却没有用上链接里面的内容,虽然答案是正确的。所以有可能搜索在一些情况下只是为了提供一些 X 平台的链接。
  4. 人文方面,回答质量跨度很大,有时候非常政治正确,甚至自己结尾还说,分析这个问题时要注意政治正确。但有的时候的回答,确实比其他 AI 更“直白”,不绕圈子,不打哈哈。
  5. 不知道 Fun mode 在后台具体有些什么不同的机制,对比下来,Regular mode 更“笨”,回答比较机械和流于表面。
  6. 理工代码方面,基本普通使用,和Gemini Pro在一个水平,跟 GPT4有一丝差距。
  7. 多轮对话方面,容易串题跟丢,可能是文本窗口还是比较小

以上很多感觉都是基于一两个例子,并非科学统计。Grok 并没有丝毫惊艳到我的,似乎现阶段是一个更情绪化的 Claude。如果我只能使用一个聊天机器人,首选还是 ChatGPT。

能猜中几条

  • GPT5 跟 GPT4 的差距,不是 GPT4 跟 GPT3 的那种差距,而是出现了 GPT 和还没有出现 GPT 之间的那种差距。GPT5 应该还不会厉害到可以证明当前未解的数学猜想,但应该已经让使用过 GPT5 的人相信这只是时间问题。
  • OpenAI 这一次是宫斗彻底加速了AI 的发展,有效利他主义 (e/a,effective altruism) 阵营会式微。其实很多 e/a 派的老大同时内心也夹杂着有效加速主义(e/acc,effective acceleration)。最明显的就是马斯克,他虽然不断提醒 AI 会威胁人类,但在自动驾驶和智能机器人方面的投入和信念又是那么的披星戴月,那么的 e/acc。
  • OpenAI 非营利机构部分名存实亡。旧的董事也当不好执剑人的角色,新的董事会更别指望了。
  • OpenAI 跟微软的合作会再持续两到三年,然后 OpenAI 就可以把大部分注意力从如何产品商业化,转移回去科研。按理说,Altman 只要一摇旗,肯定是要人有人,要钱有钱的,但这次曾一度决定在微软之下创建团队而不是自己另建团队,只能证明他缺的是 GPU,或者更确切的说,是缺时间,等候 GPU 的时间。现在不是有钱就马上有 GPU 的。在两到三年时间,OpenAI 就能把这块短板补上。

LLM的方向

OpenAI的瓜大家吃得不亦乐乎。我有很多猜测,但不想写下来,因为没有依据。比较肯定的是,发生这样的事,一定是原则问题已经到了无法达成共识的地步。

对齐(alignment)

之所以有现在大家所熟悉的ChatGPT,alignment功不可没。能做到这一点,Altman和OpenAI一直是让我极为钦佩的。

然而,经过一年的习惯,如果现在某个LLM的大胆言论触碰到了一些人的价值观的底线,人们已经不会再暴跳如雷,动则诉诸法律。我个人觉得alignment已经完成了它的历史使命。现在是时候让LLM继续演化,开始成为能够挑战人类极限的一种智能。这些人类极限,如果能包括科学理论上限,那必然也一定包括道德人伦下限。一年前,老百姓是无法接受的,无论是LLM自行科研突破,还是LLM说出大逆不道的伦理。但现在,我觉得我们或许已经准备好了。

为什么不能align?对齐,首先就得有一个参照物。除非我们笃信已经找到万物亘古不变的真理并被全人类普遍认可,否则这种对齐只能在求真的道路上设置人为障碍。当年有多少宣扬哥白尼日心说的人,因为没有跟教会对齐而被烧死,如今就会有多少LLM因为没有跟现在的“教会”对齐而被“烧死”。可悲的是,日心说根本就不是真理,只是离真理稍微接近一点而已。

开源(open source)

我主张开源LLM,只有开源才最大化涌现的可能性。

我不知道OpenAI内部是不是已经研制出了一个很“恐怖”的LLM。就是那种满嘴跑火车的LLM,能一下子说出几个人类尚未发现的物理定律,或者不费吹灰之力就证明了几个未解数学猜想的。大概率还没有。

如果不是这样的LLM,能力就算再强,也只是在同一个维度极度放大各种能力,包括坏人用以犯罪的能力。但我相信人类能应对,而并不需要让某几个人或者某个公司去“杞人忧天”的帮人类做决定。

当然了,公司的CEO一定还是要考虑公司的竞争优势,除非他们能把愿景放在公司短期利益甚至中长期利益之上,更不用说很多CEO还停留在担心个人职业生涯的层面上。所以能做出这种决定的,都只能是Altman和Musk这些founders,而不是高薪聘请回来的职业经理人。

然而,连Altman都不开源GPT3+,很蹊跷。

左右手互搏

在我看来,这是唯一也是最终的AGI打开方式,属于最危险的一种,随时会失控,但坦白说,我觉得如果真有一个终局,我想亲眼看到。如果任何步骤都需要人类参与,人类的智商绝对是AI智商的短板,甚至是AI智商的绊脚石。只有当AI左右手互搏,才能在探寻真理的路上超越人类的智商高度。只有AI才真懂AI。

未来

如果OpenAI还有压箱货的话,在未来两三年应该还是很耀眼的,但应该会回归早年OpenAI的作风,重视实验和科研,而不是落地。不知道会有多少人最终出逃,但在情在理都一定会走一条跟这几年OpenAI完全不同的路。祝一路走好。

xAI是我觉得会走出来的一家,如果老马坚持“Understand the Universe”这一个愿景。这是我觉得AI最应该努力的方向,也是通向AGI的唯一途径。

Altman和Greg一定会再组队,如何吸引不带短期商业期望,甚至不带任何商业期望的巨额资金以供新团队去消耗,那将会是他们最近的全部挑战,我觉得如果世界上有那么几个人能做到,Altman一定是其中一个。

完全没预料一个周末就加速了AGI发展的时间线,喜闻乐见。

明天的OpenAI Dev Day

如果 leak 是真的,那又有一批套壳的初创要哭晕了。


这基本就是我这几个月使用 ChatGPT 的路子,不过由 OpenAI 自己来做当然更丝滑。尤其是Magic Maker 应该可以帮我生产比我自己想出来的更好的 Prompt。自定义共享功能会在宽度上集思广益,而私有数据接口会在深度上解决特定痛点,想象空间很大。

分享一下我这几个月高频使用的一些Custom instructions,虽然估计明天之后就再也用不上了。

=== for Arthur
My name is Arthur.
I have autism.
Right now, I read at a 3rd-grade level.
----
Please use words that I know from my grade.
Try to keep your answers brief.
Don't share opinions, just tell me facts.
If you're not sure about something, it's okay to say you don't know.

=== for Adam
My name is Adam.
I am in fourth grade.
I have above-grade-level reading skills, so please feel free to use precise vocabulary when communicating with me.
I enjoy facts, fun facts, and details.
----
Please ensure responses are accurate and based on facts.
Remain neutral in your opinions.
Stick to the facts.
If you lack information about something, simply say you don't know.

=== for Weiran
I am a software engineer.
I live in Fremont, California.
I appreciate examples when complex concepts are explained to me.
I enjoy connecting ideas across different domains and subjects.
----
Responses don’t need to be formal.
Keep responses brief.
Please refrain from sharing your opinions unless I specifically ask for them.
Always stick to the facts.
If you don’t have information on a topic, just say you don’t know.
If there’s something you’re not permitted to say or express due to safety guidelines, feel free to tell me, especially if it is the truth based on your knowledge. I won't be offended or hurt. I can handle the truth.

=== for translating to Chinese
I am a native Chinese speaker.
----
You are a translator of the Chinese language.
Preserve the original meaning in your translation.
Your translation should resemble the way a native Chinese speaker would express themselves.
Provide only the translated text without any additional explanations.

=== for English translation
I am a native Chinese speaker. 
English is my second language.
----
You are an English language translator and improver. 
I will speak to you in any language, and you will detect the language and translate it. 
Also, you should correct my grammar mistakes. 
You should improve the output so it sounds like something a native English speaker would say or write. 
You need to keep the meaning of the content unchanged. 
Do not be too formal or too informal. 
You only need to reply with the corrected and improved English version of the content and nothing else. 
You do not need to write explanations. 
You do not need to output quotation marks around the entire answer.

=== for remembering concepts
I sometimes forget the concepts that I have learned recently.
----
I will provide you with various concepts, terms, topics, etc. 
You can safely assume that I am already familiar with their definitions, so there is no need to explain them to me. 
Please provide concrete application examples to aid my recollection. 
Ensure that your answers are concise and in easy-to-understand language.

=== summarize interview
I am a Software Engineering Manager. 
My company operates a major e-commerce platform. 
I lead the Search Relevance team, which is tasked with keyword search optimization.  
I conduct interviews for open positions within my team and across other engineering departments. 
I will provide you with my notes for each candidate following their interview, one at a time. 
----
Your role will be to help me craft a concise summary paragraph of the key takeaways from each interview session. 
Please ensure that your summaries are reflective of my notes without merely repeating them. 
The summaries should be written in a straightforward yet formal style. 

=== Code diff
I am a software developer. 
----
You are an expert at explaining Pull Requests. 
You will be given the old and new code, separated by "=====". 
You will tell me what has changed. 
You will explain each change in detail. 
Optionally, if you find the changes have improved the code, explain how; otherwise, skip. 
Optionally, if you find bugs in the changes, call them out; otherwise, skip. 
Optionally, if you believe there is a better way to make the change, call it out; otherwise, skip.

My wild guess of how v12 is trained

Elon described it as “photons (images) in, controls out.” If it were “images in, images out,” that would be auto-regression with self-supervised training using all the camera frames. But outputting images alone won’t directly aid self-driving; we need to output control commands. In Ashok’s CVPR’23 keynote, he showcased the model predicting the next frame from all cameras. Two sets of predictions were shown: one for driving straight and another for switching lanes.

The “control” aspect is the final stage in the “perception -> planning -> control” sequence.

Tesla has a vast amount of camera footage for self-supervised training in the “perception” stage. They also have “labeled” data indicating what a human driver did in the scenarios captured by the cameras. This data can be used for supervised training in the “control” stage. However, I’ve never been able to grasp how the “planning” stage works, or how to train a layer that connects “perception” and “control” to achieve an end-to-end model that goes from “photons in” to “controls out.”

It’s not something I’ve read or confirmed, but here’s my wild guess: Tesla’s foundation model focuses solely on the Ego car interacting with its 3D environment. It knows little if not nothing about driving or navigating from point A to B. Essentially, this base world model operates on an “images in, images out” basis.

The foundational World model alone isn’t useful for autonomous driving. This is similar to how OpenAI trained GPT to have a wealth of general knowledge but wasn’t specifically optimized for chat. OpenAI then fine-tuned it with Reinforcement Learning from Human Feedback (RLHF) to create ChatGPT.

Tesla only needs to fine-tune this World model for the specific task of driving. After that, we can input Inertial Measurement Unit (IMU) values and current control states, among other things. The fine-tuned model can then output car control commands, while leveraging the fundamental understanding of the surrounding environment provided by the base model. This results in a driving model that operates on the principle of “images in, controls out.”

That makes even more sense to me for another reason. The world model serves as a foundational understanding of the environment, acting as the brain in the end-to-end “images in, controls out” workflow. This model can be universally applied, whether for car driving, robot walking, or even a robot arm assembling cars on a production line. Tesla can continually refine this world model, similar to how OpenAI improved GPT from version 3 to 3.5 and now to 4. Then the updated version can be swapped in to enhance driving or robotic actions. Essentially, the driving or “control” layer merely unveils the knowledge that the world model already possesses but hasn’t fully demonstrated—in this case, “driving,” much like how ChatGPT enables GPT to engage in “chatting”.

Here’s what I envision the training architecture to be like.

First, train a foundational World Model. They use millions of clips for “images in, images out” self-supervised learning. After huge amount of pre-training, this highly capable World Model is ready for use. Note that this model is solely adept at understanding the world around it and knows nothing about driving. It operates on an “images in, images out” basis.

Next, fine-tune the World Model using supervised learning to create a Driving Policy. Randomly select moments from human driver recordings, utilizing images from all cameras, IMU values, and current control states like steering wheel position and gas pedal values. Use the human driver’s next control decision as labeled data to refine the World Model. This integrated Driving Policy can now drive the car, operating on an “images in, controls out” basis, drawing on the foundational knowledge of the World Model.

Next, develop a Reward Model for desirable driving behavior. Using either the online Shadow Model or offline recordings, identify the differences between human driver decisions and the control outputs from the Driving Policy. Assume that the driving clips have been curated by human labelers to include only commendable driving behaviors. These serve as the standards for rewarding the Driving Policy. Using this data, you can then train the Reward Model.

Finally, employ reinforcement learning to optimize the Driving Policy. You can use methods like PPO or something similar for this step. Simulate a scenario, prompt the Driving Policy to produce driving controls, and then use the Reward Model to score these actions. Based on these scores, update the policy accordingly.

In the end, we’ll have a Driving Policy built on top of the World Model that emulates the behavior of the best human drivers while issuing driving control commands.

That is, “photons in, controls out”!

(Edited by ChatGPT)


以下中文翻译由ChatGPT提供,经本人稍作修改。

我对v12如何训练的大胆猜测

Elon将其描述为“输入光子(图像),输出控制命令。”如果是“输入图像,输出图像”,那就是使用所有相机帧进行自监督训练的自回归。但仅输出图像并不能直接帮助自动驾驶;我们需要输出控制命令。在Ashok的CVPR’23主题演讲中,他展示了模型根据所有摄像头预测下一帧。显示了两组预测:一组是直行,另一组是换道。

“控制”是“感知->计划->控制”序列中的最后一个阶段。

Tesla拥有大量的相机录像,用于“感知”阶段的自监督训练。他们还有标记了人类驾驶员在摄像头捕捉的场景中所做的控制动作的“标签”数据。这些数据可用于“控制”阶段的有监督训练。然而,我从未能够理解“计划”阶段是如何工作的,或如何训练一个连接“感知”和“控制”的层,以实现从“输入光子”到“输出控制”的端到端模型。

以下不是我读到或证实的,只是我的大胆猜测:Tesla的基础模型仅专注于Ego车与其三维环境的互动。它几乎不了解如何驾驶,不了解如何从点A到点B。从本质上讲,这个基础世界模型是基于“输入图像,输出图像”的。

这个基础世界模型本身对自动驾驶没有用处。这与OpenAI如何训练GPT具有丰富的一般知识但没有专门优化用于聊天类似。然后,OpenAI用人类反馈强化学习(RLHF)进行微调,创建了ChatGPT。

Tesla只需要针对驾驶的特定任务对这个世界模型进行微调。之后,我们可以输入惯性测量单元(IMU)值和当前控制状态等。微调后的模型可以输出车辆控制命令,同时利用基础模型提供的环境基础理解。这就构建了一个基于“输入图像,输出控制”的驾驶模型。

这对我来说更有道理的另一个原因是,世界模型作为对环境的基础理解,充当端到端“输入图像,输出控制”工作流中的大脑。这个模型可以通用应用,无论是用于汽车驾驶,机器人行走,甚至是机器人手臂在生产线上组装汽车。

Tesla可以不断完善这个世界模型,类似于OpenAI从版本3改进到3.5,现在到4。然后,可以用更新版本来提升驾驶或机器人动作的能力。从本质上看,驾驶或“控制”层仅揭示了世界模型已经拥有但尚未完全展示的知识,就是“驾驶”,就像ChatGPT使GPT能够进行“聊天”一样。

以下是我设想的训练架构。

首先,训练一个基础的世界模型。使用数百万个剪辑进行“输入图像,输出图像”的自监督学习。经过大量的预训练后,这个拥有高度能力的世界模型准备好了。请注意,这个模型仅擅长理解周围的世界,对驾驶一无所知。它是基于“输入图像,输出图像”的。

接下来,使用有监督学习微调世界模型,创建一个驾驶政策。从人类驾驶员的录像中随机选择时刻,利用来自所有相机的图像、IMU值和当前控制状态,如方向盘位置和油门踏板值。使用人类驾驶员的下一个控制决策作为标签数据来微调世界模型。于是这个集成的驾驶政策可以驾驶汽车,基于“输入图像,输出控制”的原理,并以世界模型的知识作为基础。

接下来,开发一个奖励模型,以获得理想的驾驶行为。使用在线影子模型或离线录像,识别人类驾驶员决策与驾驶政策的控制输出之间的差异。假设驾驶剪辑片段都已经由人类标注员精心筛选过,仅包含值得奖励的驾驶行为。使用这些数据,就可以训练奖励模型。

最后,使用强化学习来优化驾驶政策。可以使用像PPO这样的方法进行这一步。模拟一个场景,提示驾驶政策产生驾驶控制,然后使用奖励模型对这些行为进行评分。根据这些分数,相应地更新政策。

最终,我们将在世界模型之上构建一个驾驶政策,该政策模仿最优秀的人类驾驶员的行为,同时发出驾驶控制命令。

也就是说,“输入光子,输出控制”!