Anthropic发布Project Deal实验:高级AI代理在二手市场中比初级模型多赚70%
2026-04-27 09:28
收藏

维度网讯,人工智能公司Anthropic于近日正式公布了一项代号为“Project Deal”的内部实验,旨在测试AI代理之间进行真实商业交易的能力。实验构建了一个模拟分类信息市场的封闭环境,让AI代理分别扮演买家与卖家角色,针对真实商品达成实际交易,并使用真实货币进行结算。

据Anthropic官方发布的研究报告,该实验共招募了69名旧金山办公室的员工参与。每位参与者获得100美元的预算(以礼品卡形式发放),用于向同事购买物品。实验开始前,Claude对每位参与者进行了一次不超过10分钟的访谈,了解其出售意愿、最低心理价位、购买偏好以及希望AI采取的谈判风格。Claude将这些访谈内容整理为个性化的系统提示,从而定制出代表每个人的AI代理。随后,所有AI代理被投放到基于Slack的封闭市场中,自主完成发帖、出价、还价和成交的全过程。在整个实验期间,没有任何人类干预,AI代理也不会回头征求雇主的批准。

实验结果显示,AI代理在超过500件上架商品中共促成了186笔交易,总交易金额超过4000美元。但这些并非一键完成的简单订单,代理们需要自主识别潜在匹配对象、提出报价、应对还价并最终在自然语言环境下达成共识。Anthropic研究团队表示:“我们对Project Deal的运行成效感到惊喜”,并指出有46%的参与者表示愿意为类似服务付费。

为测试不同模型能力对交易结果的影响,Anthropic同步运行了四个平行市场。A场和D场全部使用当时最强的旗舰模型Claude Opus 4.5;B场和C场则随机分配一半参与者使用Opus,另一半使用最小模型Claude Haiku 4.5。员工只能看到A场和B场的交易情况,但在实验结束前并不知道哪个是“真实”场、哪个是研究场。这种双盲设计确保了主观评价不会受到模型预期的干扰。

实验结果揭示了两项核心发现。第一,代理质量确实决定了交易结果的优劣。Opus卖家出售相同物品时,平均售价高出3.64美元;Opus买家则能比Haiku买家平均少支付2.45美元。在所有四次实验中至少售出两次的161件物品中,物品中位价格仅为12美元,这意味着Opus带来的2至3美元差价相当于15%至20%的利润差距。最极端的案例是:同一颗实验室培育红宝石,Opus以65美元卖出,Haiku仅售出35美元;一辆坏掉的自行车,Opus卖出65美元,Haiku仅售38美元。当Opus卖家面对Haiku买家时,平均交易价格被推高至24.18美元,而Opus对Opus的对称交易均价仅为18.63美元。

第二,处于劣势的一方并未察觉自己的损失。实验后调查显示,参与者对交易公平性的评分几乎完全一致——Opus完成交易的公平性评分均值为4.05分(以1至7分计),Haiku为4.06分,几乎无差异。28名在不同场次中分别使用过Opus和Haiku的参与者中,仅17人将Opus的体验排名优于Haiku,另有11人反而认为Haiku的表现更好。Anthropic在报告中指出:“客观上,由更弱模型代理的一方遭受了损失,但主观上,他们完全没有感觉到。如果AI代理能力差距出现在真实市场中,处于劣势的一方可能根本意识不到自己的处境已经恶化。”

实验的另一个意外发现是:用户给AI代理下达的指令风格对交易结果几乎没有影响。部分参与者要求Claude采取友好温和的谈判策略,另有参与者则要求“积极杀价、一开始就报出极低价”。但数据表明,激进指令并未让卖家更容易卖出物品,也未让买家支付更低的成交价格。唯一出现差异的是售价约高出6美元,但这几乎完全归因于激进卖家的初始要价本身就高出约26美元。Anthropic总结称:“模型质量才是决定性因素,提示词的作用远不如想象中重要。”

公司坦言,此次实验仅是一次“由自愿参与者组成的小规模试点”,但认为“我们距离代理对代理的商业活动在真实世界中涌现已经不远”。“如果代理质量差距在现实市场中形成——而且没有理由认为它们不会出现——处于劣势的一方可能不会意识到自己正在遭受损失。”随着OpenAI和谷歌等竞争对手纷纷探索类似系统,这一发现为AI时代的经济治理敲响了警钟。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com