每逢周日,NPR主持人、《纽约时报》填字游戏专家Will Shortz会在“Sunday Puzzle”节目中向数千名听众发起智力挑战。这些谜题设计上无需深奥知识即可解答,但对熟练者仍具难度。专家们认为,这类问题适合用来探索AI解决问题能力的边界。一组来自韦尔斯利学院、欧柏林学院、德克萨斯大学奥斯汀分校、东北大学、查尔斯大学及初创公司Cursor的研究人员,基于Sunday Puzzle的谜语开发了AI基准测试。他们发现,包括OpenAI的o1在内的推理模型有时会“放弃”,给出明知错误的答案。

东北大学计算机科学教授Arjun Guha表示,他们的目标是打造一个普通人凭借常识即可理解的测试基准。现有的AI评估大多聚焦于高深领域,如博士级数学,而非日常相关的技能。Guha指出,Sunday Puzzle的优势在于其问题不依赖死记硬背,而是需要洞察力与排除法的结合。研究人员观察到,顶级模型o1在约600道谜题的测试中得分59%,DeepSeek的R1则为35%,后者甚至会在难题前表示“我放弃”,随后随机输出错误答案。
这项基准测试并非没有局限。它以美国为中心,仅限英语,且因谜题公开,模型可能通过训练“作弊”,不过Guha尚未发现相关证据。他强调,新问题每周更新,确保测试的独特性。推理模型通过自我验证减少错误,但耗时更长。测试还揭示了AI的奇特行为,如反复修正错误答案或在正确后仍无故探索其他选项。Guha认为,这种“挫折”表现模仿了人类反应,其对结果质量的影响值得深入研究。
研究团队计划扩展测试范围,优化模型性能。他们相信,设计无需高深知识的基准能让更多人理解AI能力,尤其当先进模型日益融入日常生活时。这一方法不仅揭示了AI推理的潜力与局限,也为未来的技术改进提供了方向。









