一个不错的LLM benchmark?

字母拼单词的能力或许是一个不错的测评标准。

例如,i t r g a e w n 这八个字母可以组成什么单词?全部字母都用上但不重复。

对于人类来说,解决这种问题,一般就是凭经验枚举。如果你想体验一下有多困难,可以暂停自己试一下。如果在十分钟内想到答案,我不觉得你英语有多好,而是觉得你蒙的运气不错。

LLM到底是以什么“思路”去解决这种问题的,暂时没有人能解释清楚。