FSD with OPD?

今天 Thinking Machines 的这篇 OPD 真是开眼界。https://thinkingmachines.ai/blog/on-policy-distillation/

同时,我怎么感觉特斯拉已经在走 OPD 这条路一段时间了。Ashok 在前几天的演讲(https://x.com/aelluswamy/status/1981644831790379245)里面再次展示了神经世界模拟器,还有我第一次听到他们确认有可解释中间 token 的语言推理。特斯拉已经具备所有“食材”,对于训练 FSD 来说,OPD 就是在神经世界模拟器中,让学生模型 closed loop 生成自己的轨迹;用更强的教师对每一步输出 log-probs 打分,最小化 reverse-KL:KL(student‖teacher),相当于把“教师认为绝不能做的动作”强力惩罚,从而以稠密过程监督替代 RL 的稀疏奖励。这在训练效率上比 RL 显著便宜,也比纯 SFT 更贴近学生真实分布与早期 forking。

这次 FSD v14.1.3 有很多亮眼的地方,例如 drive thru,还有在停车场的表现,但却在很多“简单”的地方退步了,例如 phantom stop,乱变道之类的 v13 已经基本解决的能力。但 v14.1.4 能在一个星期之后就放出来,而且看似大幅度改善了那些不足。这种迭代肯定是后训练的。RL 太稀疏,但 SFT 又不像能修复这种看似就是由于数据分布失衡而引起的遗忘。但 OPD 应该好使。

另外,我的 HW3 一直盼着 Robotaxi 版本的 FSD 塞不进的话,马老板就会帮忙升级硬件。然而,OPD 做的好的话,估计可以硬生生靠教师模型给学生轨迹逐步打分,把大部分驾驶智慧压进一个轻模型。尤其是利用可解释中间 token,按照教师模型的每一步规划草案和意图描述等中间 token,给学生模型的每一步规划打分奖励。财报会议提到明年第二季度的 v14 Lite 大概就是这样一个物体。