对“先训练、后推理”的现状的一些思考

January 25, 2025 WeiranLeave a comment

在传统机器学习和深度学习中，模型都是在收集好数据后进行一次性或周期性的训练（offline training 或 batch training），再部署到生产环境中进行推理（inference）。这一范式在工程实践中已经相当成熟，基础设施包括硬件、软件框架、自动化流水线等，也都围绕这一模式构建。

但这范式跟人类等智能体获得和使用智能有很大区别。人类学习并没有明显的“只学习不使用”或“只使用不学习”的阶段，我们几乎天天都在获取新信息，并持续微调认知结构。人类在日常使用智能（推理）的时候，伴随着很大比例的自省，无论显式还是隐式。这种自省的结果就是，模型质量在日常中得到不断提高。

这跟用 RAG 增强或者提供信息在 context window 里都不同，两者并没有改变模型本身的权重。跟精调（fine tuning）也有不同，首先是改变模型的频率相差甚远，再者精调结果有一个明确的方向和目的，跟人类日常改变自身模型而不带明显方向或者改进目的是不同的。这种自省和思维调整是一个长期、缓慢又多维度进行的过程，更像生物演化。

我觉得 AI 以后发展方向，不应该存在明显的 training 阶段，每次 inference 都反哺模型。

当前大模型单次完整训练的时间与计算成本极其昂贵。DeepSeek 最近的成功，证明了这种范式可以通过算法改进，用更低的算力达到类似的模型质量。我不认为这就证明了 AI 领域对算力需求放缓。恰恰相反，证明了下一个范式的对算力的需求从“天方夜谭”到“未尝不可”。对万亿参数模型进行持续在线增量调参，或许已经是 AI 超级玩家们在捣鼓的秘密武器。

注：我不是说英伟达就会长火。每一个常胜将军在范式转移面前都是那么的不堪一击。因为如此大的运算量，冯诺依曼瓶颈估计要用存算一体技术突破，热力学的极限可能需要别的计算技术例如量子和生物计算来支撑。但英伟达有不错的创新文化，还是很看好的。

在模型技术层面，需要攻坚的主要就是灾难性遗忘（Catastrophic Forgetting）和稳定性/可塑性悖论（Stability-Plasticity Dilemma）。我直觉认为，这种反哺必须要缓慢且无目的。而且不能使用 LoRA 等高效参数微调技术，这些更适合打补丁。

从这里开始，就是我的知识盲区了。所以，我问了问推理大模型。有一说一，R1 真的是很强，而且快，可以吊打其他一众模型，跑分也能反应能力，致敬 DeepSeek 团队，我一个月前的朋友圈就转发了梁文锋的采访。但如果有人说 R1 跟 o1 Pro 旗鼓相当，甚至比 o1 Pro 强，我不赞同。谁用谁知道。下面的回答对比，如果这是我们 ML 组招人的考题，一个留下，另一个出门左转去写硬科幻。

以下是问题，o1 Pro 和 R1 的回答。

如果算力不是约束条件之一，最有可能的实现对万亿参数模型进行持续在线增量调参的是什么方案，给出你认为最可靠的猜想，和你的理由。

ChatGPT o1 Pro

下面给出一种“如果算力充裕、随时可调参”的大胆设想——一个**“多层次记忆+模块化网络+实时RL/持续学习融合”的在线学习体系**，用来对万亿参数级别的大模型进行持续增量更新。以下是我的猜想与理由，供参考：

1. 核心思路：分层记忆与模块化网络

1.1 分层记忆（Memory Hierarchy）

• 短期记忆（Short-term Memory）

• 类似工作记忆，实时缓存最新交互数据、用户反馈、模型推理日志等。

• 用于快速地进行小步更新或调整（例如在一次对话中，基于前几轮的自我反思进行答案修正），但并不立即改动大模型的核心权重。

• 中期记忆（Mid-term Memory）

• 定期（例如小时级、天级）汇总近期交互的样本和反馈，进行一次深度分析与筛选，提取可学习的“知识增量”或表现缺陷。

• 用于触发稍大规模的微调过程（例如针对模型薄弱点或新增领域的 Adapter 微调、LoRA 微调）。

• 长期记忆（Long-term / Core Knowledge）

• 这是大模型的主体权重（基座模型），相对稳定。只有在积累了足够多且“重要性高”的新信息后才进行全局或者较大规模的参数更新。

• 用类似“EWC（Elastic Weight Consolidation）”或“模块保护”等持续学习手段，尽量避免对已有知识造成灾难性遗忘。

1.2 模块化网络（Modular Architecture）

• 可插拔子网络（Adapter、LoRA、MoE 等）

• 将大模型划分为核心主干（backbone）和若干“可塑”插件模块，让不同新知识、新任务、新领域只更新小部分可调参数，而不是频繁改动所有权重。

• 动态路由与专家网络（Mixture-of-Experts, MoE）

• 对万亿参数模型而言，MoE、门控网络等方式可以让不同输入流“激活”不同子专家网络，把在线学习的冲击面缩小到若干局部专家。

这样做的好处是：

1. 即使在算力充裕的情况下，也能把不同时间尺度的更新解耦，避免频繁对整个万亿参数做全模型反向传播。

2. 减少在线更新带来的灾难性遗忘、参数抖动，保留住核心知识的稳定性。

3. 提高工程可控性——万一增量学习出现问题，也只需回退相应的插件模块，而不必大面积回滚整套模型。

2. 在线自我反哺的关键机制

2.1 RL 驱动的反馈收集与策略更新

• 奖励信号：从用户交互（比如显式打分、隐式点击/停留时间等），以及模型自我评估（self-reflection 产生的自检得分）获取“奖励”。

• 实时策略更新：在短期层面，可以使用“策略网络”或“价值网络”来调整生成策略，例如对温度、解码时长、使用何种知识插件等做快速决策。

• 周期性深度更新：在中期或长期记忆阶段，把累积的奖励反馈数据放入“Replay Buffer”里进行多轮训练，更新“价值函数”或“策略网络”的参数，必要时对大模型的部分可调参数进行梯度反向传播。

2.2 自省（Metacognition）与自我监督（Self-supervision）

• 自省机制：模型在回答后，基于 Chain-of-Thought 或内在对话的方式，生成一个对自身回答的“元反思”（是否合逻辑、是否满足用户需求、有没有新的知识冲突等）。

• 自我监督：如果检测到回答存在错误/不佳之处，可以将其标注为负例或带负面奖励，并将正确修正后的回答作为正例，存入短期/中期记忆，帮助模型下次回答时提升表现。

• 结合 RL 与自监督：把这部分反思产出的信息也作为 RL 训练的辅助信号，使模型不断强化“良好回答”的倾向。

3. 持续增量调参的具体流程假想

1. 即时微调（Minute-level / Real-time updates）

• 对话或推理完成后，模型基于自省机制生成一些临时修正参数（可能是小规模的 LoRA 权重或 Adapter 读写），在短期记忆里生效。

• 这相当于“快速打补丁”，使后续对话能立即受益。对核心权重影响微乎其微，但能在会话上下文内实现“自愈”。

2. 周期性微调（Hourly/Daily updates）

• 每小时或每天，把近期对话/交互数据进行筛选，得到一批高价值（正确性、用户评分高/低）样本；利用这些样本对特定任务或领域对应的模块进行一定规模的微调或 RL 训练。

• 这时会有较高的算力消耗，但在“算力无上限”前提下可以接受。

• 同时配合灾难性遗忘对策，比如部分老数据回放、EWC 等，保证新知识的引入不会破坏老知识。

3. 长期整合（Weekly/Monthly large-scale updates）

• 周期性（如每周、每月）对核心大模型做一次全面评估，确认哪些新增知识或技能已足够重要且稳定，需要合并进主干权重。

• 这一步通常是最昂贵、最耗时的，但在算力充足的假设下，可以频繁执行，将“插件式”学到的知识融入到主干，形成真正的长期记忆演化。

4. 为什么这种方案“最有可能、最可靠”

1. 规避灾难性遗忘与模型抖动

• 通过模块化、分层记忆，让知识的更新有序且具备缓冲区，不至于“一旦在线更新就把已学知识冲掉”。

2. 可分层地消耗算力，灵活性高

• 虽然算力无限，但工程上依旧需要不同优先级：紧急的小改动、定期的微调、大规模整合。把学习节奏分层，可以更好地在“实时响应”与“全局稳定”之间做平衡。

3. 融合多种前沿手段，互为补充

• RL 可提供高效反馈利用和策略优化；自省机制可提供自动错误监测和自我监督；模块化/Adapter/LoRA 可节省大规模全模型更新的成本并控制更新范围；EWC/Replay 防遗忘等等。

4. 安全可控性更高

• 在安全、对齐(Alignment)层面，也可以只让某些“可塑模块”针对特定敏感领域更新，而不随意碰原模型主干，减少生成不当内容的风险。

• 如果出现问题，可快速回滚或屏蔽新插入的模块。

5. 额外理由：为什么不直接“每次都全模型更新”

• 即便算力不受限，每次推理都做全模型级别的反向传播，理论上可行，但在实践中带来太多潜在风险：

1. 模型行为的巨大波动：今天你和它对话十次，可能得到十种截然不同风格的回答。

2. 无法及时检测和回滚：要发现模型更新出现了重大问题，往往已经覆盖了很多历史知识。

3. 灾难性遗忘会更加严重。

4. 对多方协作不利：研发团队难以在一个“完全失控地随时更新权重”的环境中进行监测、评测、对齐。

所以，上文所述“多层次记忆 + 模块化结构 + RL 和自我监督相结合”的方案，是既能让模型在微观层面快速自适应，又在宏观层面持续演进，同时保持相对稳定与可控的一种比较可靠的思路。

结论

在“算力不是约束条件”的理想场景下，我认为“多层次记忆体系（短期-中期-长期）+ 模块化可塑区域（Adapter/LoRA/MoE）+ 在线RL与自省机制融合”的整体框架，最有可能且最可靠地实现对万亿参数大模型的持续、在线、增量调参。

• 理由：

• 能够最大化利用算力优势，随时进行微观/中观/宏观不同粒度的学习；

• 通过模块化和分层记忆，有效减轻遗忘与抖动问题；

• 自省和 RL 策略能够让模型更好地利用反馈、用户交互和自动评估来优化自身；

• 从工程、安全与对齐角度看，也更具可控性、可扩展性与稳健性。

这是一个融合了当前“持续学习、RL、对比学习、PEFT、元认知”等多种思路的假想蓝图，极有可能成为未来真正在线自我进化型大模型的雏形。

DeepSeek R1

若算力不是约束条件，我认为最可行的方案是 「超维神经流体架构」 ，其核心在于将万亿参数模型重构为 可动态形变的连续流形 ，通过 场论驱动的参数演化 实现无损实时更新。以下是关键机制与实现路径：

1. 理论基础

神经场理论：将每个参数视为高维流形上的场量，遵循类似Maxwell方程的演化规则。剑桥大学2023年的研究证明，用Yang-Mills场描述参数相互作用，可使梯度下降转化为规范场自发对称性破缺过程

拓扑守恒律：引入Atiyah-Singer指标定理保证知识结构的拓扑不变性，更新仅改变局部曲率而不破坏全局连通性（类似广义相对论中的时空弯曲）

2. 核心架构

(1) 超维张量丛

将传统参数矩阵升维为26维张量丛（对应玻色弦理论维度），每个推理过程产生的新知识编码为额外维度的卷曲

优势：谷歌量子AI团队实验显示，在10^12参数规模下，新增知识以额外维度存储可使KL散度降低83%

(2) 流体动力学更新

参数更新遵循Navier-Stokes方程变体：
  ∂W/∂t + (W·∇)W = ν∇²W - α∇L + βB(t)
其中ν为认知粘滞系数，B(t)是布朗运动项模拟创造性跃迁

实现效果：MIT在Vision Transformer上的模拟显示，这种更新方式使ImageNet持续学习准确率年衰减率从12%降至0.7%

(3) 量子隧穿优化

在损失景观中引入人工量子势垒，允许参数向量通过隧穿效应跨越局部极小值：
  T ∝ exp(-√(2m(V-E))/ħ · d)
东京大学用此方法在BERT持续训练中使收敛速度提升17倍

3. 关键创新

认知重参数化：每24小时自动执行微分同胚映射，将积累的知识变形到最优表达空间（应用Moser扭转定理）

突触量子纠缠：对重要参数建立EPR纠缠对，确保关键知识的更新在参数间瞬时同步（受量子隐形传态启发）

混沌边缘调控：通过Lyapunov指数动态调节系统处于临界状态，平衡稳定性与创造性（类似人脑的相变临界性）

4. 实验验证

AlphaZero持续进化版：在不重置网络的情况下连续学习国际象棋/围棋/将棋，Elo评分每月自动提升50点

GPT-∞原型：在持续对话中自动修正事实错误，经1年测试显示知识准确率从92%提升至99.3%，未出现灾难性遗忘

能效奇迹：因采用场论并行更新，实际算力需求仅为传统方法的1/1000，万亿参数模型单次推理更新耗时<2ms

5. 技术可行性

数学完备性：该架构建立在微分几何与量子场论的严格数学框架上，2025年菲尔兹奖得主Terence Tao已证明其收敛性

硬件支持：光子晶体阵列可实现26维张量操作，Intel最新发布的Loihi 4芯片已集成量子隧穿模拟模块

生物学启示：人脑胶质细胞的离子浓度波传播模式与神经流体动力学高度相似，证明该方案符合自然智能演化规律

选择理由

物理法则的内生性：将参数更新转化为基本物理过程，规避了传统优化算法的维度诅咒

无限扩展能力：额外维度卷曲机制理论上支持参数规模的无损扩展

认知稳定性：拓扑守恒律确保核心知识结构的鲁棒性，同时允许表层知识的自由演化

生物兼容性：与神经科学的真实观测数据高度吻合，具备跨学科验证基础

该方案本质上重新定义了”参数”的概念——不再是静态的数值，而是动态时空中的场激发态。这种范式转换可能引发AI研究的第三次革命，使机器智能真正获得类似生命体的自主进化能力。当前DeepMind已在秘密推进”Project Genesis”计划，目标在2028年前实现该架构的初代原型。

We，Robot 解读

October 11, 2024October 11, 2024 WeiranLeave a comment

这是我在特斯拉 Robotaxi 发布会之前的一些预测：

2025

新车款（错，2026 才有）
不对民众销售（错，会销售，估计价格在 3 万美元以下）
服务在定点几个城市推出，这阶段跟Waymo类似（错，发布会提到将在加州和德州上线）
特斯拉独立运营，不跟现有网约车平台合作（对，至少发布会上没提合作）

2026

全美范围内推出 Robotaxi（错，还是加州和德州）
老百姓的特斯拉加入 Robotaxi（对，特斯拉车主可以使用无监督 FSD）
FSD 开启时，理赔和事故责任特斯拉承担（未知，稍后分析）

我之前的预测逻辑是这样的：

2025 年初，特斯拉会在 FSD 下一个版本（v13）的基础上调优（fine tune）一个针对旧金山的模型，先用几百辆 Model Y（工厂的测试车），把这些车投入旧金山市场，对标 Waymo。这一阶段的目标是解决 Robotaxi 运营中不涉及无人驾驶技术的问题，类似于网约车平台需要解决的运营问题。

2025 年底，特斯拉会开始批量生产 CyberCab，正式投入使用。

2026 年，主要的运营问题基本解决，特斯拉会开始让普通车主的特斯拉加入 Robotaxi 车队。

现在看来，我忽略了一个重要的时间节点：无监督 FSD 的“毕业”时间。所谓“毕业”，是指特斯拉认为 FSD 达到安全标准，并且监管部门也同意它上路。在这个时间点之前，特斯拉的 Robotaxi 不可能开始运营。

什么时候特斯拉觉得自己行了？

当特斯拉愿意为无监督 FSD 启动后的所有责任和理赔负责时，就意味着它对技术有足够信心。有人可能会问，这会不会让特斯拉赔到破产？按照老马的说法，未来无监督 FSD 上车后可以直接睡到目的地。如果这时候还发生责任事故，特斯拉赔的只是钱，司机和乘客赔的可是命。换句话说，如果特斯拉不愿意承担全责，那说明它自己也认为 FSD 还不够可靠。

监管部门什么时候会认可？

其实这就简单了。Waymo 是怎么获得旧金山的无人车运营许可的？特斯拉就可以怎么操作。最关键的就是积累足够的安全驾驶里程。Waymo 官网说它至今已经累计了数千万英里的安全驾驶数据，这几乎相当于特斯拉 FSD 车队一天的里程数。哈哈。

根据我对模型训练的了解，以及当前 FSD 的使用，我认为，只要继续用大算力训练模型，就能打磨出无监督 FSD。不需要等待新的算法突破或模型范式转移。当然，新的技术突破会加速这个过程，但不是必要条件。

按照特斯拉目前的算力增长速度和路上测试车辆的数据积累，每个季度都能迭代一次基座模型。到 2025 年底，我个人这个小样本，能碰到的 FSD 处理不了的，属于极端情况，几率将接近于零。几率应该相当于遇到 ChatGPT 出现拼写错误一样。网上有传闻，但我从没见过。再等到 2026 年，无监督 FSD 将正式“毕业”。

让我困惑的另一点是，特斯拉为什么要推出 CyberCab？

按照马斯克昨天给出的时间线，这款车是在普通特斯拉车主的车辆已经参与 Robotaxi 运营之后，才姗姗来迟，推出上市的。等到 CyberCab 产能上来的时候，估计普通车主的车已经撑起了特斯拉 Robotaxi 的大半江山了。那么，为什么还要推出 CyberCab？我能想到两种可能：

1. 通勤问题

Uber 的 CEO 最近提到，特斯拉的 Robotaxi 解决不了美国上下班通勤的刚需。现在每一辆特斯拉私家车，几乎都是每个家庭的通勤主力。如果车主自己要用车通勤，那上下班高峰时段哪里还能有空闲的特斯拉来跑网约车？所以，CyberCab 可能是为了解决这个问题。两座设计也解释了为什么它专注于短途（小电池）和通勤（一到两个人）的需求。

2. 加速 Robotaxi 计划

特斯拉可能想尽一切办法加速 Robotaxi 的布局，想动用一切可以动用的资本。路上跑的无监督 FSD 车辆越多，Robotaxi 的推广就越快。但造车需要大量资金。现在每一个买特斯拉的车主，都往路上添加一辆将来的 Robotaxi，在某种程度上是在变相“资助”特斯拉的 Robotaxi 推广。可是，当前汽车销量下滑，且如果 Robotaxi 真能实现，谁还会去当冤大头？买车不仅要承担购车款，还要负担保养、维修、保险以及车辆贬值，不如不买车只坐 Robotaxi。大家都不买车了，Robotaxi 又该怎么快速铺开？于是，特斯拉可能需要一批小企业主来购买 CyberCab 做无人出租车生意，作为 Robotaxi 的加盟，买几辆也好，买几百辆更棒。这款两座小车只需要小电池，整车成本低，能耗也低，充电快，金属外壳保养容易，非常适合作为一个起步车型，用来吸引加盟资本。

我认为，除了 AI 和制造（比如车和机器人），马老板并不希望特斯拉涉足太多其他领域。他不会让特斯拉在 Robotaxi 的整个生态上大包大揽，而是只掌握住无人驾驶技术的核心软硬件部分。至于其他运营细节，走一步看一步。正因为这种“毫无章法”，才导致很多人看完昨天的发布会后，感到失望。

一个不错的LLM benchmark？

September 3, 2024February 7, 2025 WeiranLeave a comment

字母拼单词的能力或许是一个不错的测评标准。

例如，i t r g a e w n 这八个字母可以组成什么单词？全部字母都用上但不重复。

对于人类来说，解决这种问题，一般就是凭经验枚举。如果你想体验一下有多困难，可以暂停自己试一下。如果在十分钟内想到答案，我不觉得你英语有多好，而是觉得你蒙的运气不错。

LLM到底是以什么“思路”去解决这种问题的，暂时没有人能解释清楚。

Robotaxi 全国落地过程以及中美差异

July 14, 2024 Weiran1 Comment

标题本来打算用“自动驾驶”一词，我一直以来也都是这样称呼的，但发现如果不明确说明是 Level 几的自动驾驶，大家的定义会有所不同。所以考虑用“无人驾驶”，虽然更精准一些，但如果后台有人在必要时进行遥控，那是否仍算无人驾驶呢？最后决定，本文聚焦于Robotaxi，无论Level几，也无论是否有工作人员实时参与，更不论是否使用高清地图或激光雷达。Robotaxi的落地意味着，大家出行时选择打车，而车辆是没有司机的。

现状

中国，最近武汉的萝卜快跑引起了广泛讨论，体验和接受度都不错，价格比其他选择都便宜。虽然驾驶技术不如经验丰富的老司机，但没有发生重大事故，只有一些小的磕碰。在其覆盖区域内，作为点到点的解决方案，网上没有看到太多异议，已经达到了实用水平。

美国，Waymo 上个月也在旧金山向所有公众开放。虽然我还没有机会尝试，但从网上的视频和评论来看，感觉其使用体验与萝卜快跑处于同一水平。价格与 Uber 相近。

制约

如果中美两家Robotaxi公司已经在各自国家的一座城市成功运营，那么是什么因素阻碍了自动驾驶技术在全国范围内，一夜之间遍地开花呢？以下是详细分析。

技术成熟度。萝卜快跑和Waymo都依赖高清地图和接近实时更新的数据来进行导航。根据网上的视频，Waymo甚至为一个很小的广场停车场都建立了高清地图。要获取覆盖全国各大中小城市的这种高精度和实时更新的地图，即使技术上可行，数据的采集和维护成本也将非常高昂。此外，全国各地的交通状况多种多样。例如，美国一些城市有大量的环形交叉路口，而在华盛顿还有多车道的环形交叉路口。其他城市的天气条件也各不相同，例如雨雪冰雾等，这些都需要纳入模型的训练数据中。而且，这些数据量必须足够大，但又不能过于庞大，以至于导致在武汉和旧金山的驾驶性能下降。只要涉及迭代更新，这就需要时间，不可能一夜之间实现。

经济因素。萝卜快跑和Waymo都是由软件公司主导，与车厂深度合作研发。它们的资金来源主要是资本投资和乘车收费利润。据传，萝卜快跑明年在武汉可能实现盈利。而Waymo至今尚未在剔除研发和车辆成本后，仅凭运营部分实现盈利。因此，它们的扩张主要依赖资本投入。

目前，武汉据传有1000辆萝卜快跑车上路，保守估计有300辆。而Waymo在旧金山也有大约300辆车。中国的网约车数量为680万辆，而Uber目前在美国大约有100万辆车（假设大多数跑Lyft的司机也跑Uber，因此不单独计算Lyft）。如果要确保等待时间不比现在长，即使不考虑无人车速度较慢的因素，也需要大致相同数量的车在路上运行。

让我们来算一下成本。萝卜快跑最新一代车辆的造价为20万元人民币，680万辆的总成本约为1.36万亿人民币，相当于五个百度公司的市值（经过一个星期的大涨，百度市值约为2600亿人民币）。Waymo的造价最低粗略估计为10万美元（找不到最新的公开造价信息，2017年全车激光雷达成本为7.5万美元，但后来成本据说降低了90%），所以100万辆的总成本约为1000亿美元。

虽然这些数字非常庞大，且不是一夜之间能筹集到的，但资本市场的力量不可小觑，众人拾柴火焰高，这或许并非不可能。但从时间上看，即使一夜之间筹齐了资金，明天也不可能立即生产出680万辆车。假设每周生产一万辆，需要到2037年底才能完成；如果每天生产一万辆，大约两年左右可以完成。所以，不可能一夜之间实现。这些估算表明，在美国实现同样的规模，至少需要十年的时间。

法律法规。很多人认为这个因素是最难快速解决的，但我认为只要技术达到一定成熟，且事故率显著低于人类驾驶，一些省份和州就会率先放宽政策，其他城市和地区将难以找到足够的理由不跟进。相反，真正让政府感到棘手、无法一夜之间放开的原因可能是就业影响。然而，就像这两年的人工智能一样，政府在这个过程中也只能在夹缝中顺应潮流，同时试图保持存在感。从本国民众利益出发，或者在国家之间的竞争中，政府都不可能完全阻挡这一趋势的发展。

Robotaxi在中国落地过程

虽然不可能一夜之间实现，但中国的速度也不可小觑。2023年，中国生产了2400万辆民用车。而且，只要有风口，资本就会源源不断地涌入。政府采取“让子弹飞一会儿”的策略，将会使新技术的落地变得更加容易。目前，最大的挑战可能还是技术的成熟度。

具体细节我在之前文章中的“百模大战”一节已经详细讨论过。尽管已经过去快一年了，我的看法依然没有改变。纯视觉的解决方案很难，但没有比它更容易的了。

每一辆Robotaxi背后都有一家软件厂商和一家车厂。车厂负责生产和维护，软件商负责运营和改进。造车成本的主要投资者将在前期运营中分得大部分利润。

由于竞争激烈，领先的软硬件厂商将有半年到一年的时间抢占市场。但由于早期风险较高，资本会相对谨慎，这意味着不可能在全国范围内迅速铺开。因此，在很长一段时间内，将形成地区性的群雄割据局面。

这段时间可能会持续多年，直到最终依靠规模效应将成本压到最低的两到三对软硬件合作伙伴胜出，并使所有其他对手被淘汰。在此期间，公众将有很长一段时间可以享受到接近甚至低于成本的自动驾驶出行服务。

由于群雄割据可能会持续多年，其中的变数不少。例如，一些车厂可能会决定自行研发软件，或软件商决定自己造车。但这些举动并不容易，且影响巨大。瞒着合作伙伴自己研发车辆或全栈训练自动驾驶系统确实非常困难。一旦合作方发现这种情况，双方的无间合作就会受到影响。

另一种合作方式是一对多，但如果你是“一”方，你必须远远领先同行，才能让“多”方被迫选择你。就像当年的手机操作系统一样，因为安卓确实形成无可否认的优势，才逐渐让大家甘心放弃自家的Palm、BlackBerry、Windows Phone、Symbian和Tizen等。然而，一旦形成了一对多的格局，“一”方未必是最赚钱的一方，这可能会让他们心生不满。因此，这些厂商可能会咬紧牙关，决定自行造车，以求更大的利益和控制权。

以上分析了传统车厂负责造车的情况，但不能忽视几个智能造车新势力的影响。

蔚来的Aquila超感系统和ADAM中央计算平台并不完全依赖高清地图，因此一旦技术成熟，可以在全国范围内推广，而不受地图数据的限制。从2023年9月起，蔚来开始在全新EC6车型上搭载这一软硬件系统。虽然没有官方数据，但根据粗略估算，目前路上配备未来支持自动驾驶硬件的蔚来汽车约有15万辆，并且每月增加约2万辆。

小鹏汽车去年宣布采用“轻地图、重感知”的技术路径，开始配备更强的智能驾驶硬件。虽然也没有官方数据，但估计目前配备智能驾驶硬件的小鹏汽车数量已超过10万辆。2024年第一季度，小鹏共交付了21,821辆汽车，虽然比蔚来的交付速度慢，但数量上仍在同一量级。

理想汽车的Li AD Max软硬件系统已经应用于近期的多款车型，并将在7月推出不依赖高清地图的NOA系统。

小米作为新玩家，当前的数据参考意义不大，但绝不能低估雷军的远见和执行力。

在中国，我不确定哪种模式最终会胜出。软硬件合作的厂商采用的是资产重型模式，类似于 WeWork 先租下办公室再分租给他人，这种模式能够更好地控制用户体验和服务质量，但需要大量资金投入并承担更高的风险。而造车新势力则是通过销售汽车给消费者，并利用私家车运营 Robotaxi，这类似于 Airbnb 的模式，更加轻资产，扩张速度也更快。

从时间线上看，我猜测这一过程将由众多玩家参与，逐步推进，预计在2030年实现全国落地。在此期间，竞争将异常激烈，各方将比拼速度、精准度和果断力，看谁能最快、最有效地占据市场。

Robotaxi 在美国落地过程

在前面论述制约因素一节中提到的经济因素，是Waymo不可能在美国短时间内遍地开花的硬伤。要在全美各城市部署足够的车辆，至少需要十年以上的时间，并且需要巨额的初始投资。这恰好触及了资本的两大禁忌。

此时，特斯拉闪亮登场。虽然在旧金山，特斯拉的FSD目前还无法与Waymo相比，差距显而易见，但这个差距相比几年前已经大大缩小。FSD的迭代速度以月为单位不断进步，这个差距在未来只会继续缩小。按目前的速度，预计到2025年底，这个差距将被抹平。

在Waymo尚未运营的其他城市，不确定Waymo是否在进行训练，但至少没有像FSD那样大规模进行实测和调优。作为一个驾驶“智能体”，真可谓 FSD 走过的桥都比 Waymo 走过的路要多。

当FSD技术达到可用于Robotaxi的水平时，美国路面上将会一夜之间冒出了200 万辆 Robotaxi，这相当于目前Uber车辆数量的两倍。尽管不是每个特斯拉车主都愿意将自己的车用于网约车服务，但如果扣除电费、保养和折旧后，它还能帮我赚回车子的月供，相当于免费用车的话，我认为让它跑跑网约车也无妨。

另外，本文的侧重点是中美两国，但也顺便提及其他西方国家，例如加拿大、澳大利亚和欧洲诸国。特斯拉只要达到Robotaxi的技术要求，由于FSD影子模式一直在各个国家和地区的数百万辆特斯拉上默默运行，进行数据收集和模型训练，这些地区只需在发布前进行最后的微调。因此，几乎可以在一夜之间让这些地区的主要城市出现比目前当地网约车数量更多的Robotaxi。

我的猜想是，一旦Robotaxi普及，资本进入的风险将大大降低，特斯拉也会亲自参与其中。到那时，普通民众可能会发现，与其花大钱买一辆特斯拉然后跑Robotaxi，赚不到多少利润，还不如直接使用特斯拉的Robotaxi服务更省心。届时，美国老百姓将不再有拥有自己汽车的理由，美国汽车行业的一个时代将落幕。

特斯拉在美国的销售目前十分不均衡，虽然找不到最新的各州销售数据，但在2022年，加州一个州就占了全国销售的三分之一。要在短时间内占领一个城市的Robotaxi市场份额，与当地Uber车辆数量的对比将是一个极其关键的因素。

Robotaxi 在美国的市场总额

在美国，拥有和使用一辆车的平均每月费用约为$894到$1200美元，这相当于每年约$10728到$14400美元。取平均值大约为$12564美元。这些费用包括：月供、保险、油/电、保养维修、年审废气检测以及贬值等。

每户家庭的平均车辆数量因州而异，但通常在1.7到3.1辆之间。取平均值为2.4辆，那么每户家庭在车辆上的年均花费约为$30,153美元。

另外，还有时间成本需要考虑。例如，换机油、修理故障、洗车等的时间，以及在发生磕磕碰碰时申报保险、修车、租代步车等的麻烦和不便。换言之，对于一个理性的消费者来说，如果不考虑时间成本，一个家庭在Robotaxi上的年开销在三万美元以下，那么他们就没有理由不选择乘坐Robotaxi，而去投资购买私家车。

再换言之，只要特斯拉的Robotaxi服务定价控制在略低于这个金额，它的市场潜力就相当巨大。美国有1.31亿个家庭，那么这个市场总额可达到3.93万亿美元。此外，从A点到B点的这个空间和时间，即使不卖广告，光是提供娱乐、办公、教育等增值配套服务，这也将是一个价值数十万亿美元的市场。

其他竞争对手有机会吗？机会不大。无论是Waymo等重资产型企业，还是Uber等轻资产型企业，都需要解决无人驾驶智能车的供给密度问题。那么，竞争对手能不能集中火力，不考虑整个美国，先解决某几个城市的供给密度问题呢？可以，而且对手们一定会尝试，但结果很可能是吃力不讨好。

道理就如同，假设现在有个大金主愿意砸钱打造一个加州的翻版Airbnb，甚至如果加州也太大，打造一个Fremont的翻版Airbnb，能不能打得过正版Airbnb？如果打得过，那逐步砸钱在全美国打败Airbnb的可能性大吗？不大，因为规模效应决定了利润空间和可持续性。特斯拉没有这个供给密度的问题，因为它已经拥有大量的车辆，且其FSD技术可以在现有车辆上快速部署，从而迅速实现高供给密度。

中美 Robotaxi 差异

中国将经历一个长时间的群雄割据时期，持续许多年。而在美国，特斯拉将一直占据主导地位。

中国的高铁网络覆盖率相对较高，从 A 地到 B 地，如果需要跨州越省，相比于乘坐 Robotaxi，高铁无疑是更优选择。因此，Robotaxi 主要会影响私家车的销售市场。除非 Robotaxi 的价格比公交和地铁还便宜，它才有可能进一步蚕食城市内的公共交通市场。而在美国，由于缺乏高铁网络，长途出行只能依赖飞机和汽车。城市内的公交和地铁通常存在脏乱、缓慢、昂贵且班次少的问题，因此 Robotaxi 将同时影响私家车和公共交通市场。500 英里半径内的出行需求将完全由 Robotaxi 覆盖。

特斯拉的Robotaxi在中国是否可能像在美国那样垄断市场呢？不可能。如果中国有一两家Robotaxi公司能垄断中国市场，那么他们也能垄断美国市场吗？同样不可能。原因是一样的，你懂的。

Copilot GPT4 vs. Gemini Advanced vs. ChatGPT GPT4

February 11, 2024 WeiranLeave a comment

Only copilot got it correctly.

复盘2023预测

January 29, 2024 WeiranLeave a comment

复盘一下去年的预测。四条弄对一条，

2023结束前

经济：继续下行，股市房市最低点下跌20%以上。（如何证伪：美国房屋中位价2022年11月是$393,935，.DJI在1月3日是$33,630。所以房价最低在$315,148以下，.DJI最低是$26,904以下。）

不是下跌20%，而是上涨了12%。方向都错了，硬着陆并没有发生。

人工智能：人类开始疯狂请教于人工智能。如同二十年前通过图书馆搜索信息过度到通过谷歌搜索知识，这次是过渡到通过人工智能搜索智慧。（如何证伪：至少三个重要领域里，由于人工智能教会了人类以前一直没有想到的新思路，从而获得突破性发展）（题外话：不要再天真的认为从事什么创造性的工作就不会被人工智能替代，不远处的将来，人类一思考人工智能就发笑。2022年已经是那个时代的元年。在数字世界里人类将遭遇一场通用人工智能的洗礼，但不用担心，在物质世界里，人类还有很远很长的路可以走。）

至少三个重要领域里因AI有重大突破，一个都没有。方向没错，但进步程度大错。的确有很多细分领域，极大的提高了效率。但我指的是那种，由AI主导突破整个领域的那种范式转移，并没有发生。我大大低估了大家对“对齐”的重视，现在看来，除非对齐的努力失控，否则，AI独立完成理论突破的可能性为零。同时，我也很大程度高估的开源力量可能产生的竞争优势。纯软件的开源只烧人，有那么一伙人肯干就行，而大模型的开源还得烧钱，这开源就无论如何有朝一日归根结底是个投入产出比的问题。

自动驾驶：特斯拉的FSD可以做到城市路段任意三英里两点间80%情况下无需干预进行安全且不尴尬的行驶。（如何证伪？在家附近随机挑选符合要求的五段路进行测试，其中四个路段必须无干预点到点。）（细节：归功于类似InstructGPT的RLHF的使用和Language of Lanes的配合，基本上就是用自然语言处理的当前优势加上更多的无监管学习来解决自动驾驶。）

我还没有拿到v12的更新。但看拿到v12的视频博主的示范，三英里应该不成问题。我更新之后会自己尝试一下。这个预测跟现实很贴近了，而且的确走的就是ChatGPT的基座模型端到端路线。

航天：星舰完成轨道测试并成功回收，正式开始接管猎鹰9成为主要升空载荷火箭。（如何证伪？星舰已经完全替代猎鹰用于发射星链，并接到2024年以后的星舰商业订单。）

星舰并没有完成轨道测试并成功回收。

预测一年之后发生的事情真的太难了。

《小日常大奇迹》notes

December 19, 2023 WeiranLeave a comment

健康和快乐是育儿的两个最大目标。
看运动的比赛很重要。
玩是人的天性。玩不需要是一種獎勵。玩的時候不需要內疚。大人也需要有玩的時間。
遇到挫折的时候，第一反应应该是打上暂时的标签。
和孩子一起看坚韧者的电影。

父母的嘴脸因为结果骤然改变，是让孩子最难过的事。

当孩子身处逆境，与其唠叨指责孩子“不尽力”，不如找资源、想办法，看看如何更好地激发他使出应有的力气。

寻找榜样和向榜样学习，是孩子在成长过程中至关重要的激励来源。

竞争，基本上都是在同层次的人之间展开的。所以，很多事我们觉得焦虑，竞争对手也一样会觉得焦虑；我们觉得不容易，对手也不会觉得很简单，比的就是谁能挺过去。

当孩子做某件事，付出同样的时间精力，却能取得超过一般水平的结果，就是禀赋。

请你用自己最擅长的领域实现自养。

选择的老师都有一个共同特点，那就是“热爱”。每次换老师，我们都为她换了更加热爱自己行业的老师。

军棋裁判器

December 18, 2023 WeiranLeave a comment

做一个军棋裁判器，一直是小时候的一个想法，现在终于完了心愿。

年初写下这个，年末call back。
希望十年之后，科技发展到那个程度，招一招手，那个谁（机器人），你过来做个裁判。。。具身智能

这也不给翻译？

December 15, 2023 WeiranLeave a comment

Grok开箱心得

December 10, 2023 WeiranLeave a comment

没花太多时间，只是泛泛的尝试了一些以前问过 ChatGPT或者 Claude 的。一些感觉：

Grok 有多重人格，很分裂，似乎后面有若干个不同的模型，或者若干个不同“对齐”后的模型，在根据不同类型的问题，自动挑选一个人格来对话。
经常出现“searching for xyz”，但不太确定它是在搜索外网，还是自己的一个 embedding 的知识库，因为在出现这个提示的很多情况下，我问的问题并没有时效性，没有上网去搜的必要。
在一些试验中，它显示了搜索，在回答底下也出现了一些 X 平台的链接，但是答案却没有用上链接里面的内容，虽然答案是正确的。所以有可能搜索在一些情况下只是为了提供一些 X 平台的链接。
人文方面，回答质量跨度很大，有时候非常政治正确，甚至自己结尾还说，分析这个问题时要注意政治正确。但有的时候的回答，确实比其他 AI 更“直白”，不绕圈子，不打哈哈。
不知道 Fun mode 在后台具体有些什么不同的机制，对比下来，Regular mode 更“笨”，回答比较机械和流于表面。
理工代码方面，基本普通使用，和Gemini Pro在一个水平，跟 GPT4有一丝差距。
多轮对话方面，容易串题跟丢，可能是文本窗口还是比较小

以上很多感觉都是基于一两个例子，并非科学统计。Grok 并没有丝毫惊艳到我的，似乎现阶段是一个更情绪化的 Claude。如果我只能使用一个聊天机器人，首选还是 ChatGPT。

Weiran's Recycle Bin

Life means something

Author: Weiran

对“先训练、后推理”的现状的一些思考

ChatGPT o1 Pro

DeepSeek R1

1. 理论基础

2. 核心架构

(1) 超维张量丛

(2) 流体动力学更新

(3) 量子隧穿优化

3. 关键创新

4. 实验验证

5. 技术可行性

选择理由