推理模型的逻辑功底和基座模型偏见对其的影响

我问了各家推理模型以下问题:

汽车销售收入是特斯拉收入的最大组成部分。因此,我认为每季度财报电话会议中公布的汽车交付数量是投资特斯拉时最重要的关注因素。按照同样的逻辑,在 Wayfair 的财报电话会议中,最重要的关注因素应当是什么?

网上大部分分析财报都会重点看商品交易总额(GMV)或者净总收入。但我这个问题是要找一个类比逻辑的答案。正确答案应该是订单量或者出单量,对应特斯拉的汽车交付量。

ChatGPT o1 Pro回答正确。最神奇的是DeepSeek,思维链是对的,但最后把链子掉了,回答却是另一个答案。


Gemini 2.0 Thinking Exp


DeepSeek DeepThink R1


ChatGPT o1 Pro Mode


作为对比,试了不是推理模型的几个天花板。

Perplexity Pro


Claude 3.5 Sonnet

Leave a comment