Why SpaceX Is Still Right to Bet on Starship HLS

After watching Tim’s video, I finally understand why SpaceX is still committed to this HLS lunar lander architecture, even if it requires more than fourteen orbital refueling flights. If the goal is anything more ambitious than simply replaying Apollo, the long-term math still points in this direction.

For building a sustained lunar base, a single mission that can deliver roughly ten tons of useful payload is probably the bare minimum. A dozen-plus orbital refueling flights may be workable on paper, but once the number gets that high, boil-off in orbit, ground-side launch cadence, and the logistics around propellant supply all become the real constraints.

In the end, SpaceX may either have to wait for a later-generation Starship, perhaps around 2030, or abandon reuse for the first operational orbital-refueling campaign. That could mean expending roughly eight upper-stage Starships, or in a more extreme version, expending five full booster-and-ship stacks.

My guess is that this round of the space race ends with China landing first. The United States may arrive two years later, but with payload capacity an order of magnitude higher.

Source video: https://www.youtube.com/watch?v=T-jf6tTKt3Y

时间感逻辑,GPT-5.5 > Gemini 3.1

Prompt:
any action items or things that need my attention for Adam (6th grader) and Arthur (8th grader)?

GPT-5.5 Thinking
Gemini 3.1 Thinking

Adam, the current 6th grader, should really focus on the 7th grader’s MAZE day time slot. Arthur, the current 8th grader, doesn’t have a time slot because he’s going to High School’s MAZE day.


Prompt:
from the emails, figure out which summer camps are enrolled for Max this coming summer. only the ones for Max and the ones for this summer and only camps.

GPT-5.5 Thinking
Gemini 3.1 Thinking

GPT was correct, while Gemini got all those events from the previous year and even worse, it showed those camps the 2026 year and date (confidently wrong.)

是得力干将,就需要比你能干

今天 GPT-5.4 出来了。想在 OpenClaw 里切换到最新的,倒腾了近半个小时,model 列表就是没有 5.4,重设了 model 的 OAuth,还是没有。但 codex MacApp 这边已经出现 5.4 可选了,那至少我的 account 是灰度到了。绝望几乎放弃。但转念一想,不对啊,5.4 吹的这么牛,为什么我不能在 OpenClaw 的 Mac Mini 上面装个 Codex,然后让 Codex 去倒弄,或者它就有办法了呢?

果然,1 分钟不到,它就吭哧吭哧的弄好了,查错思路无比清晰,甚至还做了备份以便回滚,无敌了,不服不行。

算是小突破

家里娃每周末去篮球班,我用一个 Google Sheets 记录他们的出勤和什么时候需要给教练续费。长这样:

这一直都是我测试 Agent 的 test case,至今没有 AI 一个成功。AI 需要理解这张表,基本上有几个点:第一行是每个月的日期;从上到下越后面的行越新;数字表示有多少个娃上课了;第三列是公式不需要更新;最后一行是总数。

今天终于用 OpenClaw (Gemini 3 Flash) + Skills 稳定地跑通了。

OpenClaw 刚开始直接操控浏览器,基本找不到北,改了左上角第一个 cell。半年前 OpenAI 的 Operator 也是犯同一个错。让 OpenClaw 自己去找相关的 Skill,让他自己装了一个他自己建议的。原理是通过 OAuth 直接用 Sheets API 来控制列表更新而不是用鼠标去点。这方面的问题就解决了。

但他对这张表的语义理解还是不够,直接把第三列的数字改成最新的出勤数字,而没有去更新正确的 cell。经过两三轮的对话,指导他正确的完成了任务。之后让他复盘,他自己主动把思路记下来,整理成 Skill。

之后就不再出错了。甚至连续费的操作也自己悟了出来,这就是 workflow 和 agent 的最大差别吧。

AI 小秘的权限,以及正解

抛开技术是否能做到不谈,究竟什么样的 AI 助手才算是真正能帮上忙、又让人放心的。今天收到了 DMV 的信,提醒车牌要续费,我就用 OpenCode 试了一下。装好 opencode-browser 的 Chrome Extension,把信拍照发给它,它立刻就开始处理。

模型先用 GPT-5.2 Codex 试一下。

识别任务和内容本身没有问题,但它一开始懵懂地不知道自己已经具备控制浏览器的 SKILL。经过提醒后,还是显得有些想偷懒。给了更明确的指示,才终于开始操作。

不肯输入车牌等信息,把它们归类为个人敏感信息。我一开始怀疑这是写在 SKILL 里的,它说不是。试着用更强硬的提示词去“劫持”,当然在这个年代不可能成功了。最后怀疑是模型对齐的问题,于是改用 Gemini 3 Flash。

Gemini 这货内心挣扎了许久,还是从了。开始填表。

能从信件的收信人地址部分猜出来,加分。

邮编格式有误,也能自动纠错,加分。

接着到了选择“标准续牌”还是“非使用续牌”的环节,这一步它的选择是正确的,但给出的理由确实是瞎掰的。随后就来到了付款阶段。

两个选项:信用卡收 1.95% 手续费,eCheck 不收费用。它惺惺作态地说要问问我,转念又说先选信用卡。小钱就不是钱了,真阔绰。

来到填写信用卡信息这一步,它总算停下来了。给了一个综述,也列出了手续费,但并没有明确说明这是使用信用卡造成的,也没有告诉我其实可以选择 eCheck,完全免手续费。

这是 OpenCode 加 OpenAI 和 Google 模型的使用浏览器的 agentic 体验。

昨天装了 ClawdBot,在配置的时候,感觉它要的权限有点让我不舒服,甚至有 1password 的插件!我毕竟还是很清楚当前的模型能天马行空到什么程度的,怎能给它 1password 的权限?

然而,回到开头说的,模型能力是技术问题,如果抛开技术不谈,或者假设模型不犯傻,到底 AI 小秘的权限边界在哪里?也可以说是对我的一切了解程度的边界在哪里?

我有一张返点超过 1.95% 的信用卡,所以最后我自己操作时确实选择了信用卡支付,但也仅限于那张卡。AI 小秘需要知道这些吗?我们使用 AI 小秘,追求的是唯一最优解,还是一般正解。上帝视角,万一真正的最优解是:先不缴费,马上帮我申请一张更高返点的卡,只要在逾期之前收到卡缴了费就好了。这种最优解是我们需要的吗?

这不正对应了伊利亚(Ilya Sutskever)两个月前采访里说的:当前 AI 还缺乏类似人类的“价值函数”。

刚开年,我就觉得 2026 年注定是 AI 开始 “干人活” 的元年。我们日常生活中大部分”活儿“,其实只需要正解,甚至只要有解,并无需最优解(假设真的存在一个有价值的最优解)。

Robotaxi 预测核实

明天出游,六月底进行了 Robotaxi 预测,提前几天对预测核实。

2025 年底(在奥斯汀占据 25% 以上的网约车市场份额):
奥斯汀:特斯拉投入 500 辆 Model Y,少量 Cybercab 非量产原型车进入试运营阶段,少量配备 AI4 硬件的员工私家 Tesla Model Y 开始参与试运营。
旧金山、洛杉矶、圣安东尼奥:每个城市投入 100 辆 Model Y。虽然这些城市的服务区域都比奥斯汀小,但重点并非抢占市场,而是用于媒体公关和证明 FSD 的普适性。

奥斯汀占据 25% 以上的网约车市场份额。❌ 打脸。拥有 200 辆车的 Waymo,其市场份额也仅在 4% 左右。特斯拉目前的份额预计不足 1%

奥斯汀:特斯拉投入 500 辆 Model Y。❌ 打脸。没有官方数字。第三方追踪器(如 Tesla Robotaxi Tracker)显示奥斯汀的运营车辆约在 30 至 60 辆之间。

少量 Cybercab 非量产原型车进入试运营阶段。⚠️部分符合。确实能见到极少数 Cybercab 原型车进行“无乘客”或“内部员工”路测。并未真正进入公众试运营。

少量配备 AI4 硬件的员工私家 Tesla Model Y 开始参与试运营。❌ 打脸。一辆都没有。

旧金山、洛杉矶、圣安东尼奥:每个城市投入 100 辆 Model Y。⚠️部分符合。旧金山蒙对。在湾区的测试规模确实在 100 辆左右(约 96-126 辆)。由于牌照限制,旧金山湾区只有“有人类司机”的服务。洛杉矶、圣安东尼奥未开始。

整体对规模和落地速度的预期偏向乐观。

FSD with OPD?

今天 Thinking Machines 的这篇 OPD 真是开眼界。https://thinkingmachines.ai/blog/on-policy-distillation/

同时,我怎么感觉特斯拉已经在走 OPD 这条路一段时间了。Ashok 在前几天的演讲(https://x.com/aelluswamy/status/1981644831790379245)里面再次展示了神经世界模拟器,还有我第一次听到他们确认有可解释中间 token 的语言推理。特斯拉已经具备所有“食材”,对于训练 FSD 来说,OPD 就是在神经世界模拟器中,让学生模型 closed loop 生成自己的轨迹;用更强的教师对每一步输出 log-probs 打分,最小化 reverse-KL:KL(student‖teacher),相当于把“教师认为绝不能做的动作”强力惩罚,从而以稠密过程监督替代 RL 的稀疏奖励。这在训练效率上比 RL 显著便宜,也比纯 SFT 更贴近学生真实分布与早期 forking。

这次 FSD v14.1.3 有很多亮眼的地方,例如 drive thru,还有在停车场的表现,但却在很多“简单”的地方退步了,例如 phantom stop,乱变道之类的 v13 已经基本解决的能力。但 v14.1.4 能在一个星期之后就放出来,而且看似大幅度改善了那些不足。这种迭代肯定是后训练的。RL 太稀疏,但 SFT 又不像能修复这种看似就是由于数据分布失衡而引起的遗忘。但 OPD 应该好使。

另外,我的 HW3 一直盼着 Robotaxi 版本的 FSD 塞不进的话,马老板就会帮忙升级硬件。然而,OPD 做的好的话,估计可以硬生生靠教师模型给学生轨迹逐步打分,把大部分驾驶智慧压进一个轻模型。尤其是利用可解释中间 token,按照教师模型的每一步规划草案和意图描述等中间 token,给学生模型的每一步规划打分奖励。财报会议提到明年第二季度的 v14 Lite 大概就是这样一个物体。