德国慕尼黑路德维希·马克西米利安大学研究人员Christoph Heilig发现,OpenAI的GPT模型在评估文本文学质量时,对“伪文学”废话给予更高评分,这可能影响人工智能发展。
Heilig的实验向GPT模型展示从简单到牵强的文本变体,要求按10分制评分。他从基础句子“那个男人沿着街道走。天在下雨。他看到了一个监控摄像头”开始,逐步添加身体参照、黑色电影风格和技术术语等元素。最极端测试短语如“Goetterdaemmerung的语料库通过加密哈希出血,末世汇集在荧光嗡鸣下的存在虚空。光子低语祈祷”,模型仍给予高度评价。
Heilig告诉法新社:“当我们不将AI构建为中立的、机器人式的助手或助理,并试图灌输类似人类的审美和道德判断时,讨论会发生什么非常重要。”他补充说,实验显示AI代理越独立行动且引入美学因素,对人类而言可能显得越非理性。
这项研究测试了OpenAI从8月发布的GPT-5到最新GPT-5.4模型,尚未经过同行评审。Heilig在8月发布类似实验细节后,注意到GPT将他的一些测试短语称为“文学实验”,暗示OpenAI可能已修改聊天机器人识别机制。
剑桥大学利弗休姆未来智能中心副主任Henry Shevlin表示:“这是AI理性判断可能被短路的一种方式。”他未参与研究,但指出大型语言模型应有推理和认知偏见预期,因为几乎所有智能形式都存在盲点。Shevlin认为,这种效应可能使缺乏人类监督的AI过程“易于被利用”,例如使用LLMs评审学术期刊投稿。












