一个不错的LLM benchmark? September 3, 2024February 7, 2025 WeiranLeave a comment 字母拼单词的能力或许是一个不错的测评标准。 例如,i t r g a e w n 这八个字母可以组成什么单词?全部字母都用上但不重复。 对于人类来说,解决这种问题,一般就是凭经验枚举。如果你想体验一下有多困难,可以暂停自己试一下。如果在十分钟内想到答案,我不觉得你英语有多好,而是觉得你蒙的运气不错。 LLM到底是以什么“思路”去解决这种问题的,暂时没有人能解释清楚。