字母拼单词的能力或许是一个不错的测评标准。
例如,i t r g a e w n 这八个字母可以组成什么单词?全部字母都用上但不重复。
对于人类来说,解决这种问题,一般就是凭经验枚举。如果你想体验一下有多困难,可以暂停自己试一下。如果在十分钟内想到答案,我不觉得你英语有多好,而是觉得你蒙的运气不错。
LLM到底是以什么“思路”去解决这种问题的,暂时没有人能解释清楚。







标题本来打算用“自动驾驶”一词,我一直以来也都是这样称呼的,但发现如果不明确说明是 Level 几的自动驾驶,大家的定义会有所不同。所以考虑用“无人驾驶”,虽然更精准一些,但如果后台有人在必要时进行遥控,那是否仍算无人驾驶呢?最后决定,本文聚焦于Robotaxi,无论Level几,也无论是否有工作人员实时参与,更不论是否使用高清地图或激光雷达。Robotaxi的落地意味着,大家出行时选择打车,而车辆是没有司机的。
中国,最近武汉的萝卜快跑引起了广泛讨论,体验和接受度都不错,价格比其他选择都便宜。虽然驾驶技术不如经验丰富的老司机,但没有发生重大事故,只有一些小的磕碰。在其覆盖区域内,作为点到点的解决方案,网上没有看到太多异议,已经达到了实用水平。
美国,Waymo 上个月也在旧金山向所有公众开放。虽然我还没有机会尝试,但从网上的视频和评论来看,感觉其使用体验与萝卜快跑处于同一水平。价格与 Uber 相近。
如果中美两家Robotaxi公司已经在各自国家的一座城市成功运营,那么是什么因素阻碍了自动驾驶技术在全国范围内,一夜之间遍地开花呢?以下是详细分析。
技术成熟度。萝卜快跑和Waymo都依赖高清地图和接近实时更新的数据来进行导航。根据网上的视频,Waymo甚至为一个很小的广场停车场都建立了高清地图。要获取覆盖全国各大中小城市的这种高精度和实时更新的地图,即使技术上可行,数据的采集和维护成本也将非常高昂。此外,全国各地的交通状况多种多样。例如,美国一些城市有大量的环形交叉路口,而在华盛顿还有多车道的环形交叉路口。其他城市的天气条件也各不相同,例如雨雪冰雾等,这些都需要纳入模型的训练数据中。而且,这些数据量必须足够大,但又不能过于庞大,以至于导致在武汉和旧金山的驾驶性能下降。只要涉及迭代更新,这就需要时间,不可能一夜之间实现。
经济因素。萝卜快跑和Waymo都是由软件公司主导,与车厂深度合作研发。它们的资金来源主要是资本投资和乘车收费利润。据传,萝卜快跑明年在武汉可能实现盈利。而Waymo至今尚未在剔除研发和车辆成本后,仅凭运营部分实现盈利。因此,它们的扩张主要依赖资本投入。
目前,武汉据传有1000辆萝卜快跑车上路,保守估计有300辆。而Waymo在旧金山也有大约300辆车。中国的网约车数量为680万辆,而Uber目前在美国大约有100万辆车(假设大多数跑Lyft的司机也跑Uber,因此不单独计算Lyft)。如果要确保等待时间不比现在长,即使不考虑无人车速度较慢的因素,也需要大致相同数量的车在路上运行。
让我们来算一下成本。萝卜快跑最新一代车辆的造价为20万元人民币,680万辆的总成本约为1.36万亿人民币,相当于五个百度公司的市值(经过一个星期的大涨,百度市值约为2600亿人民币)。Waymo的造价最低粗略估计为10万美元(找不到最新的公开造价信息,2017年全车激光雷达成本为7.5万美元,但后来成本据说降低了90%),所以100万辆的总成本约为1000亿美元。
虽然这些数字非常庞大,且不是一夜之间能筹集到的,但资本市场的力量不可小觑,众人拾柴火焰高,这或许并非不可能。但从时间上看,即使一夜之间筹齐了资金,明天也不可能立即生产出680万辆车。假设每周生产一万辆,需要到2037年底才能完成;如果每天生产一万辆,大约两年左右可以完成。所以,不可能一夜之间实现。这些估算表明,在美国实现同样的规模,至少需要十年的时间。
法律法规。很多人认为这个因素是最难快速解决的,但我认为只要技术达到一定成熟,且事故率显著低于人类驾驶,一些省份和州就会率先放宽政策,其他城市和地区将难以找到足够的理由不跟进。相反,真正让政府感到棘手、无法一夜之间放开的原因可能是就业影响。然而,就像这两年的人工智能一样,政府在这个过程中也只能在夹缝中顺应潮流,同时试图保持存在感。从本国民众利益出发,或者在国家之间的竞争中,政府都不可能完全阻挡这一趋势的发展。
虽然不可能一夜之间实现,但中国的速度也不可小觑。2023年,中国生产了2400万辆民用车。而且,只要有风口,资本就会源源不断地涌入。政府采取“让子弹飞一会儿”的策略,将会使新技术的落地变得更加容易。目前,最大的挑战可能还是技术的成熟度。
具体细节我在之前文章中的“百模大战”一节已经详细讨论过。尽管已经过去快一年了,我的看法依然没有改变。纯视觉的解决方案很难,但没有比它更容易的了。
每一辆Robotaxi背后都有一家软件厂商和一家车厂。车厂负责生产和维护,软件商负责运营和改进。造车成本的主要投资者将在前期运营中分得大部分利润。
由于竞争激烈,领先的软硬件厂商将有半年到一年的时间抢占市场。但由于早期风险较高,资本会相对谨慎,这意味着不可能在全国范围内迅速铺开。因此,在很长一段时间内,将形成地区性的群雄割据局面。
这段时间可能会持续多年,直到最终依靠规模效应将成本压到最低的两到三对软硬件合作伙伴胜出,并使所有其他对手被淘汰。在此期间,公众将有很长一段时间可以享受到接近甚至低于成本的自动驾驶出行服务。
由于群雄割据可能会持续多年,其中的变数不少。例如,一些车厂可能会决定自行研发软件,或软件商决定自己造车。但这些举动并不容易,且影响巨大。瞒着合作伙伴自己研发车辆或全栈训练自动驾驶系统确实非常困难。一旦合作方发现这种情况,双方的无间合作就会受到影响。
另一种合作方式是一对多,但如果你是“一”方,你必须远远领先同行,才能让“多”方被迫选择你。就像当年的手机操作系统一样,因为安卓确实形成无可否认的优势,才逐渐让大家甘心放弃自家的Palm、BlackBerry、Windows Phone、Symbian和Tizen等。然而,一旦形成了一对多的格局,“一”方未必是最赚钱的一方,这可能会让他们心生不满。因此,这些厂商可能会咬紧牙关,决定自行造车,以求更大的利益和控制权。
以上分析了传统车厂负责造车的情况,但不能忽视几个智能造车新势力的影响。
蔚来的Aquila超感系统和ADAM中央计算平台并不完全依赖高清地图,因此一旦技术成熟,可以在全国范围内推广,而不受地图数据的限制。从2023年9月起,蔚来开始在全新EC6车型上搭载这一软硬件系统。虽然没有官方数据,但根据粗略估算,目前路上配备未来支持自动驾驶硬件的蔚来汽车约有15万辆,并且每月增加约2万辆。
小鹏汽车去年宣布采用“轻地图、重感知”的技术路径,开始配备更强的智能驾驶硬件。虽然也没有官方数据,但估计目前配备智能驾驶硬件的小鹏汽车数量已超过10万辆。2024年第一季度,小鹏共交付了21,821辆汽车,虽然比蔚来的交付速度慢,但数量上仍在同一量级。
理想汽车的Li AD Max软硬件系统已经应用于近期的多款车型,并将在7月推出不依赖高清地图的NOA系统。
小米作为新玩家,当前的数据参考意义不大,但绝不能低估雷军的远见和执行力。
在中国,我不确定哪种模式最终会胜出。软硬件合作的厂商采用的是资产重型模式,类似于 WeWork 先租下办公室再分租给他人,这种模式能够更好地控制用户体验和服务质量,但需要大量资金投入并承担更高的风险。而造车新势力则是通过销售汽车给消费者,并利用私家车运营 Robotaxi,这类似于 Airbnb 的模式,更加轻资产,扩张速度也更快。
从时间线上看,我猜测这一过程将由众多玩家参与,逐步推进,预计在2030年实现全国落地。在此期间,竞争将异常激烈,各方将比拼速度、精准度和果断力,看谁能最快、最有效地占据市场。
在前面论述制约因素一节中提到的经济因素,是Waymo不可能在美国短时间内遍地开花的硬伤。要在全美各城市部署足够的车辆,至少需要十年以上的时间,并且需要巨额的初始投资。这恰好触及了资本的两大禁忌。
此时,特斯拉闪亮登场。虽然在旧金山,特斯拉的FSD目前还无法与Waymo相比,差距显而易见,但这个差距相比几年前已经大大缩小。FSD的迭代速度以月为单位不断进步,这个差距在未来只会继续缩小。按目前的速度,预计到2025年底,这个差距将被抹平。
在Waymo尚未运营的其他城市,不确定Waymo是否在进行训练,但至少没有像FSD那样大规模进行实测和调优。作为一个驾驶“智能体”,真可谓 FSD 走过的桥都比 Waymo 走过的路要多。
当FSD技术达到可用于Robotaxi的水平时,美国路面上将会一夜之间冒出了200 万辆 Robotaxi,这相当于目前Uber车辆数量的两倍。尽管不是每个特斯拉车主都愿意将自己的车用于网约车服务,但如果扣除电费、保养和折旧后,它还能帮我赚回车子的月供,相当于免费用车的话,我认为让它跑跑网约车也无妨。
另外,本文的侧重点是中美两国,但也顺便提及其他西方国家,例如加拿大、澳大利亚和欧洲诸国。特斯拉只要达到Robotaxi的技术要求,由于FSD影子模式一直在各个国家和地区的数百万辆特斯拉上默默运行,进行数据收集和模型训练,这些地区只需在发布前进行最后的微调。因此,几乎可以在一夜之间让这些地区的主要城市出现比目前当地网约车数量更多的Robotaxi。
我的猜想是,一旦Robotaxi普及,资本进入的风险将大大降低,特斯拉也会亲自参与其中。到那时,普通民众可能会发现,与其花大钱买一辆特斯拉然后跑Robotaxi,赚不到多少利润,还不如直接使用特斯拉的Robotaxi服务更省心。届时,美国老百姓将不再有拥有自己汽车的理由,美国汽车行业的一个时代将落幕。
特斯拉在美国的销售目前十分不均衡,虽然找不到最新的各州销售数据,但在2022年,加州一个州就占了全国销售的三分之一。要在短时间内占领一个城市的Robotaxi市场份额,与当地Uber车辆数量的对比将是一个极其关键的因素。
在美国,拥有和使用一辆车的平均每月费用约为$894到$1200美元,这相当于每年约$10728到$14400美元。取平均值大约为$12564美元。这些费用包括:月供、保险、油/电、保养维修、年审废气检测以及贬值等。
每户家庭的平均车辆数量因州而异,但通常在1.7到3.1辆之间。取平均值为2.4辆,那么每户家庭在车辆上的年均花费约为$30,153美元。
另外,还有时间成本需要考虑。例如,换机油、修理故障、洗车等的时间,以及在发生磕磕碰碰时申报保险、修车、租代步车等的麻烦和不便。换言之,对于一个理性的消费者来说,如果不考虑时间成本,一个家庭在Robotaxi上的年开销在三万美元以下,那么他们就没有理由不选择乘坐Robotaxi,而去投资购买私家车。
再换言之,只要特斯拉的Robotaxi服务定价控制在略低于这个金额,它的市场潜力就相当巨大。美国有1.31亿个家庭,那么这个市场总额可达到3.93万亿美元。此外,从A点到B点的这个空间和时间,即使不卖广告,光是提供娱乐、办公、教育等增值配套服务,这也将是一个价值数十万亿美元的市场。
其他竞争对手有机会吗?机会不大。无论是Waymo等重资产型企业,还是Uber等轻资产型企业,都需要解决无人驾驶智能车的供给密度问题。那么,竞争对手能不能集中火力,不考虑整个美国,先解决某几个城市的供给密度问题呢?可以,而且对手们一定会尝试,但结果很可能是吃力不讨好。
道理就如同,假设现在有个大金主愿意砸钱打造一个加州的翻版Airbnb,甚至如果加州也太大,打造一个Fremont的翻版Airbnb,能不能打得过正版Airbnb?如果打得过,那逐步砸钱在全美国打败Airbnb的可能性大吗?不大,因为规模效应决定了利润空间和可持续性。特斯拉没有这个供给密度的问题,因为它已经拥有大量的车辆,且其FSD技术可以在现有车辆上快速部署,从而迅速实现高供给密度。
中国将经历一个长时间的群雄割据时期,持续许多年。而在美国,特斯拉将一直占据主导地位。
中国的高铁网络覆盖率相对较高,从 A 地到 B 地,如果需要跨州越省,相比于乘坐 Robotaxi,高铁无疑是更优选择。因此,Robotaxi 主要会影响私家车的销售市场。除非 Robotaxi 的价格比公交和地铁还便宜,它才有可能进一步蚕食城市内的公共交通市场。而在美国,由于缺乏高铁网络,长途出行只能依赖飞机和汽车。城市内的公交和地铁通常存在脏乱、缓慢、昂贵且班次少的问题,因此 Robotaxi 将同时影响私家车和公共交通市场。500 英里半径内的出行需求将完全由 Robotaxi 覆盖。
特斯拉的Robotaxi在中国是否可能像在美国那样垄断市场呢?不可能。如果中国有一两家Robotaxi公司能垄断中国市场,那么他们也能垄断美国市场吗?同样不可能。原因是一样的,你懂的。



Only copilot got it correctly.
复盘一下去年的预测。四条弄对一条,
2023结束前
经济:继续下行,股市房市最低点下跌20%以上。(如何证伪:美国房屋中位价2022年11月是$393,935,.DJI在1月3日是$33,630。所以房价最低在$315,148以下,.DJI最低是$26,904以下。)
不是下跌20%,而是上涨了12%。方向都错了,硬着陆并没有发生。

人工智能:人类开始疯狂请教于人工智能。如同二十年前通过图书馆搜索信息过度到通过谷歌搜索知识,这次是过渡到通过人工智能搜索智慧。(如何证伪:至少三个重要领域里,由于人工智能教会了人类以前一直没有想到的新思路,从而获得突破性发展)(题外话:不要再天真的认为从事什么创造性的工作就不会被人工智能替代,不远处的将来,人类一思考人工智能就发笑。2022年已经是那个时代的元年。在数字世界里人类将遭遇一场通用人工智能的洗礼,但不用担心,在物质世界里,人类还有很远很长的路可以走。)
至少三个重要领域里因AI有重大突破,一个都没有。方向没错,但进步程度大错。的确有很多细分领域,极大的提高了效率。但我指的是那种,由AI主导突破整个领域的那种范式转移,并没有发生。我大大低估了大家对“对齐”的重视,现在看来,除非对齐的努力失控,否则,AI独立完成理论突破的可能性为零。同时,我也很大程度高估的开源力量可能产生的竞争优势。纯软件的开源只烧人,有那么一伙人肯干就行,而大模型的开源还得烧钱,这开源就无论如何有朝一日归根结底是个投入产出比的问题。
自动驾驶:特斯拉的FSD可以做到城市路段任意三英里两点间80%情况下无需干预进行安全且不尴尬的行驶。(如何证伪?在家附近随机挑选符合要求的五段路进行测试,其中四个路段必须无干预点到点。)(细节:归功于类似InstructGPT的RLHF的使用和Language of Lanes的配合,基本上就是用自然语言处理的当前优势加上更多的无监管学习来解决自动驾驶。)
我还没有拿到v12的更新。但看拿到v12的视频博主的示范,三英里应该不成问题。我更新之后会自己尝试一下。这个预测跟现实很贴近了,而且的确走的就是ChatGPT的基座模型端到端路线。
航天:星舰完成轨道测试并成功回收,正式开始接管猎鹰9成为主要升空载荷火箭。(如何证伪?星舰已经完全替代猎鹰用于发射星链,并接到2024年以后的星舰商业订单。)
星舰并没有完成轨道测试并成功回收。
预测一年之后发生的事情真的太难了。
健康和快乐是育儿的两个最大目标。
看运动的比赛很重要。
玩是人的天性。 玩不需要是一種獎勵。 玩的時候不需要內疚。 大人也需要有玩的時間。
遇到挫折的时候,第一反应应该是打上暂时的标签。
和孩子一起看坚韧者的电影。
父母的嘴脸因为结果骤然改变,是让孩子最难过的事。
当孩子身处逆境,与其唠叨指责孩子“不尽力”,不如找资源、想办法,看看如何更好地激发他使出应有的力气。
寻找榜样和向榜样学习,是孩子在成长过程中至关重要的激励来源。
竞争,基本上都是在同层次的人之间展开的。所以,很多事我们觉得焦虑,竞争对手也一样会觉得焦虑;我们觉得不容易,对手也不会觉得很简单,比的就是谁能挺过去。
当孩子做某件事,付出同样的时间精力,却能取得超过一般水平的结果,就是禀赋。
请你用自己最擅长的领域实现自养。
选择的老师都有一个共同特点,那就是“热爱”。每次换老师,我们都为她换了更加热爱自己行业的老师。
做一个军棋裁判器,一直是小时候的一个想法,现在终于完了心愿。

年初写下这个,年末call back。
希望十年之后,科技发展到那个程度,招一招手,那个谁(机器人),你过来做个裁判。。。具身智能
没花太多时间,只是泛泛的尝试了一些以前问过 ChatGPT或者 Claude 的。一些感觉:
以上很多感觉都是基于一两个例子,并非科学统计。Grok 并没有丝毫惊艳到我的,似乎现阶段是一个更情绪化的 Claude。如果我只能使用一个聊天机器人,首选还是 ChatGPT。





上了Gemini的Bard比以前厉害多了。同时也还是跟GPT4有肉眼差距。例如画蛇添足。而且我试了一些灵魂拷问的,估计是“对齐”工作做得太好了,完全是跟我绕圈子。








