维度网讯,Anthropic发布Claude Sonnet 5,以中端价位提供接近旗舰性能,旨在吸引注重成本的企业开发者。该公司加速推进首次公开募股,这款模型将帮助检验私人市场的高估值能否经受公开市场审视。Anthropic称其为“迄今为止最具代理能力的Sonnet模型”,将成为Free和Pro套餐用户的默认模型,Max、Team和Enterprise客户也可使用。API入门定价为每百万输入token 2美元、每百万输出token 10美元,持续至8月31日;之后分别涨至3美元和15美元,仍远低于Anthropic顶级模型Opus 4.8的定价:输入5美元、输出25美元。
Sonnet 5在其前代Sonnet 4.6基础上,在Anthropic披露的每项评估中均取得显著提升。在代理编程基准测试SWE-bench Pro上,Sonnet 5得分为63.2%,Sonnet 4.6为58.1%,接近Opus 4.8的69.2%。在Terminal-Bench 2.1编程评估中,Sonnet 5为80.4%,Sonnet 4.6为67.0%,Opus 4.8为82.7%。多学科推理方面,以“人类最后考试”衡量,Sonnet 5不使用工具得分为43.2%,使用工具为57.4%,后者基本与Opus 4.8的57.9%持平。在通过OSWorld-Verified评估的计算机使用任务中,Sonnet 5达到81.2%,高于之前的78.5%。在知识工作基准测试GDPval-AA v2上,得分为1,618,超过Opus 4.8的1,615和Sonnet 4.6的1,395。

这些评估数据显示,Sonnet 5跃入了与Anthropic旗舰模型基本重叠的性能层级,标准定价下每token成本约低60%。对代理能力的强调,反映了AI行业重心已转移至自主执行多步骤工作流的系统。早期访问合作伙伴Cursor联合创始人Sualeh Asif表示,模型能坚持计划并交付干净的多步骤变更,且成本高效。Zapier高级工程师Daniel Shepard描述,在测试一个两部分自动化工作时,模型能完成此前会“中途卡住”的任务。

Sonnet 5使用了更新的分词器,类似于Opus 4.7引入的变化,改变了模型处理文本的方式。相同输入根据内容类型可能映射为约1.0到1.35倍的token数。Anthropic表示入门定价经过校准,使过渡“大致成本中性”,但运行高工作量任务的企业客户应仔细评估具体用例。Anthropic的安全披露显示,Sonnet 5的幻觉和谄媚率低于Sonnet 4.6,能更好拒绝恶意请求,且在代理环境中对提示注入攻击更具抵抗力。在自动行为审计中,Sonnet 5总体得分低于Sonnet 4.6。然而,与能力更强的Opus 4.8以及Claude Mythos Preview相比,Sonnet 5表现出“略高的失调行为率”。在Firefox 147漏洞利用开发评估中,两款Sonnet模型均未能开发出有效漏洞利用,两者得分均为0.0%,但Sonnet 5的部分成功率为13.2%,高于Sonnet 4.6的8.8%,两者仍远低于Opus 4.8的68.8%和Mythos 5的88.4%。Anthropic在Sonnet 5中默认启用了网络安全防护,这些防护与Opus 4.7和4.8相同,但比Fable 5限制更少。已加入网络验证计划的组织自动获得相同权限。

Sonnet 5发布恰逢Anthropic关键时期,该公司于6月初向美国证券交易委员会秘密提交IPO招股说明书,CNBC将其描述为“科技史上最受瞩目的公开发行”。据《卫报》报道,2月份,Anthropic以3800亿美元估值融资300亿美元,年化收入达140亿美元且“过去三年每年增长十倍以上”。5月底,Anthropic完成由Altimeter Capital、红杉资本等共同领投的650亿美元H轮融资,投后估值9650亿美元,收入运行率超过470亿美元。PitchBook分析师Harrison Rolfes向CNBC表示,关键数字是毛利率,外部观察者尚未看到。在此背景下,Sonnet 5旨在以有竞争力价格提升能力,展示公司能在价格层级上交付吸引产品,推动广泛采用。加州州长Gavin Newsom宣布以50%折扣向所有州政府机构提供Claude,并免费提供劳动力培训,Anthropic美洲区负责人Kate Jensen称此举是为“让Claude服务于维持加州运转的人们”。

Anthropic处于日益拥挤的领域。OpenAI(3月份以8520亿美元估值融资1220亿美元)正寻求IPO;Elon Musk的SpaceX与xAI合并后以每股135美元、估值1.77万亿美元定价IPO;Google、Meta及亚洲AI初创公司均在争夺同一企业市场。D.A. Davidson科技研究主管Gil Luria向CNBC表示,尽管Anthropic在前沿AI模型中“似乎处于领先地位”,但“他们目前的大部分使用都是用于试验和实验,这可能无法持续”。Sonnet 5以Sonnet价格提供接近Opus性能,直接瞄准将实验性使用转化为生产级收入的目标。有三件事将决定其意义:现实世界代理可靠性、分词器经济学和IPO叙事本身。当S-1文件公开时,投资者将审视哪个层级驱动大部分收入及毛利润。PitchBook分析师Rolfes向CNBC指出,2026年IPO窗口“要么成为自互联网时代以来最重要的IPO周期,要么成为公开市场有史以来在叙事与基本面之间最昂贵的教训”。









