如今,大型语言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等人工智能工具,已能提供关系建议、编写文本甚至撰写科学文章。然而,它们能否解答数独谜题并给出合理解释呢?科罗拉多大学博尔德分校的计算机科学家团队对此展开研究。团队设计了近2300个原创数独谜题,并使用多个AI工具进行解答尝试。

研究结果显示,AI在解答数独谜题时表现参差不齐。虽然部分模型能解决简单谜题,但即便最优秀的模型也难以清晰解释解题过程,其描述往往混乱、不准确甚至离奇。该研究的共同作者玛丽亚·帕切科指出,这些结果引发了人们对人工智能生成信息可信度的质疑。“对于某些类型的数独谜题,大多数AI模型在提供人类可理解的解释方面仍显不足。”帕切科表示。她和同事在《计算语言学协会的研究结果》上发表了这一研究成果。
研究并非旨在作弊,而是通过逻辑练习探索AI的思维方式。共同作者Fabio Somenzi教授认为,这些结果或能催生出更可靠、值得信赖的计算机程序。“谜题虽有趣,但也是研究机器学习决策过程的缩影。”他说。当前,大多数AI模型难以形成人类般的逻辑思维方式,这很大程度上源于其训练方式。例如,ChatGPT通过预测下一个单词来回答问题,几乎像计算机版的死记硬背。帕切科、索门齐等研究者正致力于融合AI的记忆能力与人脑的逻辑能力,这一追求被称为“神经符号”人工智能。在测试中,OpenAI的o1模型预览版正确解答了约65%的数独谜题,但在解释解题过程时却常出现编造事实或完全偏离主题的情况。研究人员希望设计出既能解决复杂谜题又能清晰解释解题过程的人工智能系统,目前他们正从类似数独的“hitori”谜题入手进行研究。
更多信息: Anirudh Maiya 等人,《用自然语言解释谜题解决方案:6x6 数独的探索性研究》(2025 年)













京公网安备 11010802043282号