Anthropic发布Project Deal实验：高级AI代理在二手市场中比初级模型多赚70%

2026-04-27 09:28

关键词:

维度网讯，人工智能公司Anthropic于近日正式公布了一项代号为“Project Deal”的内部实验，旨在测试AI代理之间进行真实商业交易的能力。实验构建了一个模拟分类信息市场的封闭环境，让AI代理分别扮演买家与卖家角色，针对真实商品达成实际交易，并使用真实货币进行结算。

据Anthropic官方发布的研究报告，该实验共招募了69名旧金山办公室的员工参与。每位参与者获得100美元的预算(以礼品卡形式发放)，用于向同事购买物品。实验开始前，Claude对每位参与者进行了一次不超过10分钟的访谈，了解其出售意愿、最低心理价位、购买偏好以及希望AI采取的谈判风格。Claude将这些访谈内容整理为个性化的系统提示，从而定制出代表每个人的AI代理。随后，所有AI代理被投放到基于Slack的封闭市场中，自主完成发帖、出价、还价和成交的全过程。在整个实验期间，没有任何人类干预，AI代理也不会回头征求雇主的批准。

实验结果显示，AI代理在超过500件上架商品中共促成了186笔交易，总交易金额超过4000美元。但这些并非一键完成的简单订单，代理们需要自主识别潜在匹配对象、提出报价、应对还价并最终在自然语言环境下达成共识。Anthropic研究团队表示：“我们对Project Deal的运行成效感到惊喜”，并指出有46%的参与者表示愿意为类似服务付费。

为测试不同模型能力对交易结果的影响，Anthropic同步运行了四个平行市场。A场和D场全部使用当时最强的旗舰模型Claude Opus 4.5;B场和C场则随机分配一半参与者使用Opus，另一半使用最小模型Claude Haiku 4.5。员工只能看到A场和B场的交易情况，但在实验结束前并不知道哪个是“真实”场、哪个是研究场。这种双盲设计确保了主观评价不会受到模型预期的干扰。

实验结果揭示了两项核心发现。第一，代理质量确实决定了交易结果的优劣。Opus卖家出售相同物品时，平均售价高出3.64美元;Opus买家则能比Haiku买家平均少支付2.45美元。在所有四次实验中至少售出两次的161件物品中，物品中位价格仅为12美元，这意味着Opus带来的2至3美元差价相当于15%至20%的利润差距。最极端的案例是：同一颗实验室培育红宝石，Opus以65美元卖出，Haiku仅售出35美元;一辆坏掉的自行车，Opus卖出65美元，Haiku仅售38美元。当Opus卖家面对Haiku买家时，平均交易价格被推高至24.18美元，而Opus对Opus的对称交易均价仅为18.63美元。

第二，处于劣势的一方并未察觉自己的损失。实验后调查显示，参与者对交易公平性的评分几乎完全一致——Opus完成交易的公平性评分均值为4.05分(以1至7分计)，Haiku为4.06分，几乎无差异。28名在不同场次中分别使用过Opus和Haiku的参与者中，仅17人将Opus的体验排名优于Haiku，另有11人反而认为Haiku的表现更好。Anthropic在报告中指出：“客观上，由更弱模型代理的一方遭受了损失，但主观上，他们完全没有感觉到。如果AI代理能力差距出现在真实市场中，处于劣势的一方可能根本意识不到自己的处境已经恶化。”

实验的另一个意外发现是：用户给AI代理下达的指令风格对交易结果几乎没有影响。部分参与者要求Claude采取友好温和的谈判策略，另有参与者则要求“积极杀价、一开始就报出极低价”。但数据表明，激进指令并未让卖家更容易卖出物品，也未让买家支付更低的成交价格。唯一出现差异的是售价约高出6美元，但这几乎完全归因于激进卖家的初始要价本身就高出约26美元。Anthropic总结称：“模型质量才是决定性因素，提示词的作用远不如想象中重要。”

公司坦言，此次实验仅是一次“由自愿参与者组成的小规模试点”，但认为“我们距离代理对代理的商业活动在真实世界中涌现已经不远”。“如果代理质量差距在现实市场中形成——而且没有理由认为它们不会出现——处于劣势的一方可能不会意识到自己正在遭受损失。”随着OpenAI和谷歌等竞争对手纷纷探索类似系统，这一发现为AI时代的经济治理敲响了警钟。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国