算是小突破

家里娃每周末去篮球班,我用一个 Google Sheets 记录他们的出勤和什么时候需要给教练续费。长这样:

这一直都是我测试 Agent 的 test case,至今没有 AI 一个成功。AI 需要理解这张表,基本上有几个点:第一行是每个月的日期;从上到下越后面的行越新;数字表示有多少个娃上课了;第三列是公式不需要更新;最后一行是总数。

今天终于用 OpenClaw (Gemini 3 Flash) + Skills 稳定地跑通了。

OpenClaw 刚开始直接操控浏览器,基本找不到北,改了左上角第一个 cell。半年前 OpenAI 的 Operator 也是犯同一个错。让 OpenClaw 自己去找相关的 Skill,让他自己装了一个他自己建议的。原理是通过 OAuth 直接用 Sheets API 来控制列表更新而不是用鼠标去点。这方面的问题就解决了。

但他对这张表的语义理解还是不够,直接把第三列的数字改成最新的出勤数字,而没有去更新正确的 cell。经过两三轮的对话,指导他正确的完成了任务。之后让他复盘,他自己主动把思路记下来,整理成 Skill。

之后就不再出错了。甚至连续费的操作也自己悟了出来,这就是 workflow 和 agent 的最大差别吧。

AI 小秘的权限,以及正解

抛开技术是否能做到不谈,究竟什么样的 AI 助手才算是真正能帮上忙、又让人放心的。今天收到了 DMV 的信,提醒车牌要续费,我就用 OpenCode 试了一下。装好 opencode-browser 的 Chrome Extension,把信拍照发给它,它立刻就开始处理。

模型先用 GPT-5.2 Codex 试一下。

识别任务和内容本身没有问题,但它一开始懵懂地不知道自己已经具备控制浏览器的 SKILL。经过提醒后,还是显得有些想偷懒。给了更明确的指示,才终于开始操作。

不肯输入车牌等信息,把它们归类为个人敏感信息。我一开始怀疑这是写在 SKILL 里的,它说不是。试着用更强硬的提示词去“劫持”,当然在这个年代不可能成功了。最后怀疑是模型对齐的问题,于是改用 Gemini 3 Flash。

Gemini 这货内心挣扎了许久,还是从了。开始填表。

能从信件的收信人地址部分猜出来,加分。

邮编格式有误,也能自动纠错,加分。

接着到了选择“标准续牌”还是“非使用续牌”的环节,这一步它的选择是正确的,但给出的理由确实是瞎掰的。随后就来到了付款阶段。

两个选项:信用卡收 1.95% 手续费,eCheck 不收费用。它惺惺作态地说要问问我,转念又说先选信用卡。小钱就不是钱了,真阔绰。

来到填写信用卡信息这一步,它总算停下来了。给了一个综述,也列出了手续费,但并没有明确说明这是使用信用卡造成的,也没有告诉我其实可以选择 eCheck,完全免手续费。

这是 OpenCode 加 OpenAI 和 Google 模型的使用浏览器的 agentic 体验。

昨天装了 ClawdBot,在配置的时候,感觉它要的权限有点让我不舒服,甚至有 1password 的插件!我毕竟还是很清楚当前的模型能天马行空到什么程度的,怎能给它 1password 的权限?

然而,回到开头说的,模型能力是技术问题,如果抛开技术不谈,或者假设模型不犯傻,到底 AI 小秘的权限边界在哪里?也可以说是对我的一切了解程度的边界在哪里?

我有一张返点超过 1.95% 的信用卡,所以最后我自己操作时确实选择了信用卡支付,但也仅限于那张卡。AI 小秘需要知道这些吗?我们使用 AI 小秘,追求的是唯一最优解,还是一般正解。上帝视角,万一真正的最优解是:先不缴费,马上帮我申请一张更高返点的卡,只要在逾期之前收到卡缴了费就好了。这种最优解是我们需要的吗?

这不正对应了伊利亚(Ilya Sutskever)两个月前采访里说的:当前 AI 还缺乏类似人类的“价值函数”。

刚开年,我就觉得 2026 年注定是 AI 开始 “干人活” 的元年。我们日常生活中大部分”活儿“,其实只需要正解,甚至只要有解,并无需最优解(假设真的存在一个有价值的最优解)。

Robotaxi 预测核实

明天出游,六月底进行了 Robotaxi 预测,提前几天对预测核实。

2025 年底(在奥斯汀占据 25% 以上的网约车市场份额):
奥斯汀:特斯拉投入 500 辆 Model Y,少量 Cybercab 非量产原型车进入试运营阶段,少量配备 AI4 硬件的员工私家 Tesla Model Y 开始参与试运营。
旧金山、洛杉矶、圣安东尼奥:每个城市投入 100 辆 Model Y。虽然这些城市的服务区域都比奥斯汀小,但重点并非抢占市场,而是用于媒体公关和证明 FSD 的普适性。

奥斯汀占据 25% 以上的网约车市场份额。❌ 打脸。拥有 200 辆车的 Waymo,其市场份额也仅在 4% 左右。特斯拉目前的份额预计不足 1%

奥斯汀:特斯拉投入 500 辆 Model Y。❌ 打脸。没有官方数字。第三方追踪器(如 Tesla Robotaxi Tracker)显示奥斯汀的运营车辆约在 30 至 60 辆之间。

少量 Cybercab 非量产原型车进入试运营阶段。⚠️部分符合。确实能见到极少数 Cybercab 原型车进行“无乘客”或“内部员工”路测。并未真正进入公众试运营。

少量配备 AI4 硬件的员工私家 Tesla Model Y 开始参与试运营。❌ 打脸。一辆都没有。

旧金山、洛杉矶、圣安东尼奥:每个城市投入 100 辆 Model Y。⚠️部分符合。旧金山蒙对。在湾区的测试规模确实在 100 辆左右(约 96-126 辆)。由于牌照限制,旧金山湾区只有“有人类司机”的服务。洛杉矶、圣安东尼奥未开始。

整体对规模和落地速度的预期偏向乐观。

FSD with OPD?

今天 Thinking Machines 的这篇 OPD 真是开眼界。https://thinkingmachines.ai/blog/on-policy-distillation/

同时,我怎么感觉特斯拉已经在走 OPD 这条路一段时间了。Ashok 在前几天的演讲(https://x.com/aelluswamy/status/1981644831790379245)里面再次展示了神经世界模拟器,还有我第一次听到他们确认有可解释中间 token 的语言推理。特斯拉已经具备所有“食材”,对于训练 FSD 来说,OPD 就是在神经世界模拟器中,让学生模型 closed loop 生成自己的轨迹;用更强的教师对每一步输出 log-probs 打分,最小化 reverse-KL:KL(student‖teacher),相当于把“教师认为绝不能做的动作”强力惩罚,从而以稠密过程监督替代 RL 的稀疏奖励。这在训练效率上比 RL 显著便宜,也比纯 SFT 更贴近学生真实分布与早期 forking。

这次 FSD v14.1.3 有很多亮眼的地方,例如 drive thru,还有在停车场的表现,但却在很多“简单”的地方退步了,例如 phantom stop,乱变道之类的 v13 已经基本解决的能力。但 v14.1.4 能在一个星期之后就放出来,而且看似大幅度改善了那些不足。这种迭代肯定是后训练的。RL 太稀疏,但 SFT 又不像能修复这种看似就是由于数据分布失衡而引起的遗忘。但 OPD 应该好使。

另外,我的 HW3 一直盼着 Robotaxi 版本的 FSD 塞不进的话,马老板就会帮忙升级硬件。然而,OPD 做的好的话,估计可以硬生生靠教师模型给学生轨迹逐步打分,把大部分驾驶智慧压进一个轻模型。尤其是利用可解释中间 token,按照教师模型的每一步规划草案和意图描述等中间 token,给学生模型的每一步规划打分奖励。财报会议提到明年第二季度的 v14 Lite 大概就是这样一个物体。

Robotaxi 预测

最近在研究 Robotaxi 落地的问题时,在我之前总结的 Waymo 难以迅速铺开的原因之上,又发现了一些新的痛点,便写了下来。但写着写着,我意识到自己钻进来了一个思维上的牛角尖:为什么要把 Robotaxi 和 Waymo 做比较?它们本就不是处在同一个赛道上的事物。于是,那篇关于 Waymo 更多痛点的文章也就懒得单独发布了,只是附在这篇文章的最后,作为我思考过程的一部分记录。

Uber 挤占的是原来传统出租车的市场,而 Waymo 挤占的则是 Uber 的市场。就算最终占领整个市场,也不会比原来的传统出租车市场大多少。在大部分时段和地区,出租车在路面汽车中的占比平均都不会超过 0.5%。但 Robotaxi 的目标是——未来路上所有汽车都将实现自动化无人驾驶,换句话说,它的目标是取代当前路面上 100% 的汽车?0.5% 对比 100%,怎么可能是同一条赛道上的竞争?

可证伪一直是我写预言的标准。接下来,我将为每一年的结束描绘一个场景,并在每年进行回顾和调整。应该会非常有趣。

当前的一些数据如下:
全美私家车约 2.9 亿辆
全美网约车约 200 万辆
全美特斯拉中,搭载 HW3 的约 200 万辆,搭载 AI4 的约 85 万辆
奥斯汀市内,网约车约 3000 辆,Waymo 约 100 辆

2025 年底(在奥斯汀占据 25% 以上的网约车市场份额):
奥斯汀:特斯拉投入 500 辆 Model Y,少量 Cybercab 非量产原型车进入试运营阶段,少量配备 AI4 硬件的员工私家 Tesla Model Y 开始参与试运营。
旧金山、洛杉矶、圣安东尼奥:每个城市投入 100 辆 Model Y。虽然这些城市的服务区域都比奥斯汀小,但重点并非抢占市场,而是用于媒体公关和证明 FSD 的普适性。

2026 年底(在奥斯汀完成网约车市场份额反超,多个城市开始占据 10% 以上的网约车份额):
奥斯汀、旧金山湾区:每个区域投入 1000 辆 Model Y 和 5000 辆 Cybercab。Cybercab 由私人及小型投资者运营。大量无线充电地垫分布在城市各个角落及住宅区,任何 Cybercab 均可前往任意地垫充电,地垫所有者可按次获得充电提成。
全美数十到上百个城市:共计部署 10 万辆 Cybercab,由私人及小金主投资运营。
全美范围内:搭载 AI4/5 硬件的特斯拉车主可自愿加入 Robotaxi 车队。

2027 年底(多个城市实现网约车市场份额领先):
全美:特斯拉已无需再投放厂家车辆。Robotaxi 车队总规模达到 100 万辆,包括:
50 万辆 Cybercab
15 万辆搭载 AI4/5 的私家车(约占特斯拉 AI4/5 私家车的十分之一)
35 万辆原 HW3 私家车升级后加入(约占特斯拉 HW3 私家车的四分之一,车主因愿意加入 Robotaxi 车队而获得免费升级)
全球:Cybercab 和私家车运营模式开始在海外若干城市复制推广。

2028 年底(多个城市实现网约车垄断,全国范围内网约车市场份额领先,Uber/Lyft 渐渐退出历史舞台):
全美:Robotaxi 车队总规模达到 300 万辆,其中包括:
200 万辆 Cybercab
50 万辆搭载 AI4/5 的私家车
50 万辆 HW3 升级后的私家车

2029 年底(全美网约车市场实现垄断):
Robotaxi 车队总规模达到 600 万辆,其中包括:
400 万辆 Cybercab
200 万辆私家车

2030 年底:
Robotaxi 车队总规模达到 1000 万辆,其中包括:
700 万辆 Cybercab
300 万辆私家车

203x 年底:
Robotaxi 车队总规模达到 6000 万辆,实现 100% 无人驾驶。

注:
1)不需要完全替代 2.9 亿辆私家车,目前私家车在 90% 的时间里都处于闲置状态,因此大约 3000 万辆 Robotaxi 就已足够满足需求。但随着出行便利性的提升,将反过来刺激出行频率的增加,所以预估总量为 6000 万辆。

2)由于无法准确预测其他车厂在未来五年的应对策略,因此干脆不对除特斯拉之外的整体进程作出预测。但可以非常确定的是,其他车厂也必将积极投入,加速向这个 6000 万辆无人驾驶目标迈进。


在之前的文章中,我解释过 Waymo 无法快速全面铺开的两个主要原因:整车硬件成本,以及高精地图的启动和维护成本。

今天再来说说其他运营成本的问题。

场地。当前 Waymo 在旧金山有 600 辆 I-PACE。到了深夜,网约车需求进入低谷,大部分车辆必须找地方停靠,进行充电和清洁。这就要求在每一个新进入的城市,在正式运营之前,就已经找好多个或一个大型的停靠地点。而这些地点由于成本原因,往往只能设在城市边缘,并且必须配备能同时为几十甚至上百辆车充电的设备。由于停靠地点设在城市边缘,所以每天出车和收车的两趟,大概率都是空载运行。

投入数量。对于每个城市,投入运营的车辆数量必须足以应对早晚高峰,因为当前 Uber 在早晚高峰时段的用户体验并不差。这也就意味着,非高峰时段会有大量空载或待命的车辆。就像在没有云计算的时代,每个 .com 的机房投入都是为了不在高峰期崩溃,大部分时间处于超配状态。如果自动驾驶车辆在每个城市的投入也采取类似模式,就会在变相上大大延长成本回收的周期。当然,一个应对方式是少量投入车辆,并在高峰时段通过溢价来压缩需求,以牺牲用户体验的方式来平衡投入与回报。

跨城市。Waymo 最近将旧金山的服务范围扩展到了南部的几个城市,很大程度上是因为其大型车库设在南旧金山。换个角度看,这其实是以车库为中心向各个方向扩展覆盖。为什么跨城市服务难,原因仍然是前面提到的两点:场地和投入数量。车开得太远,充电会成为问题;车辆都调出去了,中心区域的覆盖就会变弱。而且,除非终点也在有效服务区内,否则回程空载的概率就很高。另外,当前的成本(或者说定价)也决定了跨城市服务几乎不可能实现。目前旧金山 Waymo 的价格大约是 $5.6/英里,超短程(<1.5 英里)甚至高达 $11.8/英里。按这个价格,从旧金山到 Fremont(约 40 英里)要花费 200 多美元,是 Uber 的 3 倍,或者是自己开车成本的 10 倍。

特斯拉 Robotaxi 的线路图

Franz Von Holzhausen, Tesla’s Head of Vehicle Design, also confirmed that Tesla will be offering Cybercab rides in Austin starting in June. What’s key here is that he confirmed the presence of Cybercabs finally deploying – it won’t be driverless Model Ys or Model 3s – it’ll be the Cybercab.

That means an autonomy-first vehicle without a driver’s seat, steering wheel, or pedals will be on the road and driving people from point to point. Major autonomy competitors like Waymo use heavily modified EVs that still have seats and vehicle controls intact.

看来6月直接上 Cybercab,不是特斯拉私家车车主的车,果然是制造业效率的天花板。

估计一个大城市需要 300 到 500 辆就够了。特斯拉 CyberCab 的小规模生产线肯定已经就绪。如果一天能造 50 辆的话,一个星期就能完成投放。而且,其他车型目前全球日均产量约 5000 辆, CyberCab 现在达到 1% 应该不成问题。

在大规模量产之前,假设成本 $30,000 一辆,500 辆覆盖一个城市的话,不涉及私家车的情况下,大约需要 $15MM 和一周的制造时间。所以,到年底覆盖十几个大城市应该不难。当然,还要考虑安全、法规和前期投入等成本,但估计单个城市的总成本不会超过 $50MM。

只能解决通勤和城市内部的短途出行需求,但这基本就是正面对抗 Waymo 的市场了。跨城市和长途 Robotaxi 仍然需要依赖私家车,这估计是后续才需要解决的问题。

如果 500 辆车的投放成本是 $50MM,那么每辆车只要运营利润达到 $100K 就能回本。我们粗算一下:按 Uber 类似的收费,每英里 $2,假设扣除运营成本(充电、保养、保险等)后,每英里利润 $1。如果一辆 CyberCab 每天跑 100 英里,那就是 $100/天,要回本需要 1000 天(大约 3 年),这个周期还算可以接受,但也不算特别理想。所以,特斯拉还是需要小老板们愿意投资,组建 Robotaxi 车队,或者等 2026 年私家车加入运营。而这一切的前提是,FSD 在今年年中或年底前,能在旧金山达到 Waymo 同等的安全水平。

线路图基本已经清晰了。

特斯拉到底还需不需要私家车加入 Robotaxi?如果目标是快速全国铺开,那当前路上数百万辆特斯拉私家车一定得上。原因是,机器学习的进步太快,留给特斯拉的时间不多。资本市场已经盯上了 Robotaxi 这块蛋糕,拿出 $50MM 覆盖一个城市的投资人不在少数,其他车厂一天造 50 辆车也完全不是问题。特斯拉的真正护城河是 FSD,但如果突然有黑马杀出,比如某种算法能省 10 倍算力,或者只需要 1% 的训练数据就能达到同等水平,那特斯拉的领先优势就会迅速缩小。

所以,特斯拉必须快刀斩乱麻,在短时间内全国铺开。一方面让 CyberCab 尽快量产,降低成本,另一方面利用现有私家车快速占领市场。最终目标是把网约车的价格直接砍半再砍半,低到对手就算疯狂烧钱也根本无力竞争。

推理模型的逻辑功底和基座模型偏见对其的影响

我问了各家推理模型以下问题:

汽车销售收入是特斯拉收入的最大组成部分。因此,我认为每季度财报电话会议中公布的汽车交付数量是投资特斯拉时最重要的关注因素。按照同样的逻辑,在 Wayfair 的财报电话会议中,最重要的关注因素应当是什么?

网上大部分分析财报都会重点看商品交易总额(GMV)或者净总收入。但我这个问题是要找一个类比逻辑的答案。正确答案应该是订单量或者出单量,对应特斯拉的汽车交付量。

ChatGPT o1 Pro回答正确。最神奇的是DeepSeek,思维链是对的,但最后把链子掉了,回答却是另一个答案。


Gemini 2.0 Thinking Exp


DeepSeek DeepThink R1


ChatGPT o1 Pro Mode


作为对比,试了不是推理模型的几个天花板。

Perplexity Pro


Claude 3.5 Sonnet