近日,苹果公司一篇质疑大模型推理能力的论文引发广泛争议。Open Philanthropy研究人员联合Anthropic的AI模型Claude Opus发表4页反驳论文《The Illusion of the Illusion of Thinking》,直指苹果实验设计的三大漏洞。
论文指出,苹果在汉诺塔实验中忽略了模型token限制问题。当盘子数超过13个时,模型因输出长度限制而无法完整展示解题步骤,并非缺乏推理能力。数据显示,15个盘子需要3.2万次移动,远超主流模型的token上限(Sonnet 3.7为128k,DeepSeek R1为64k)。
更关键的是,苹果使用的部分测试案例在数学上本就无解。例如「过河问题」在n=6时无解,却将模型的「失败」归咎于推理缺陷。研究团队建议改用编程测试法:让模型输出解题程序而非步骤,结果Claude、Gemini等主流模型准确率显著提升。
这场学术交锋折射出AI评估体系的标准之争。沃顿商学院教授Ethan Mollick认为,简单否定大模型推理能力为时过早,开发者更应关注如何设计符合实际应用场景的测试方法。随着企业加速AI部署,科学评估模型能力的需求正变得前所未有的迫切。