中国千问发布Qwen-AgentWorld语言世界模型
收藏

维度网讯,6月24日,中国千问正式发布原生语言世界模型Qwen-AgentWorld,同步推出覆盖七大领域的语言世界模型评测基准AgentWorldBench。该模型与评测基准已在Hugging Face和ModelScope开放获取,面向AI智能体环境模拟、任务训练和能力评测等场景。

Qwen-AgentWorld的核心定位是“语言世界模型”,不是普通对话大模型。它通过语言形式模拟智能体所处环境的状态变化,根据智能体动作和历史交互记录,预测下一步环境反馈。对AI智能体来说,这类模型相当于提供一个可反复试错的虚拟交互空间,用于训练和评估智能体在复杂任务中的规划、执行和纠错能力。

此次发布的Qwen-AgentWorld覆盖七大智能体交互领域,包括MCP工具调用、搜索、终端、软件工程、Android、网页和操作系统。这些领域既包含文本环境,也包含图形界面和软件操作环境,覆盖了当前AI Agent常见的任务入口。模型可用于模拟终端命令执行结果、网页操作反馈、手机应用界面变化、软件工程任务进展以及工具调用后的环境响应。

官方信息显示,Qwen-AgentWorld-35B-A3B基于Qwen3.5-35B-A3B-Base训练,总参数规模35B,激活参数约3B,支持262K上下文长度。其训练流程包括持续预训练、监督微调和强化学习三个阶段,目标从早期训练阶段就聚焦环境建模,而不是在通用语言模型基础上临时增加模拟能力。

同步发布的AgentWorldBench用于评测语言世界模型在不同交互环境中的模拟质量。该基准从格式、事实性、一致性、真实感和质量五个维度对模型预测的环境观察结果进行评分,帮助研究者比较不同模型在环境模拟任务中的表现。Hugging Face页面显示,AgentWorldBench数据集以测试集形式开放,包含约2170条样本。

这类模型对AI Agent研发有直接意义。当前智能体训练面临一个现实问题:真实环境调用成本高,任务状态复杂,API、网页、终端和移动应用环境难以大规模稳定复现。如果语言世界模型能够较准确地模拟环境反馈,研究者就可以在虚拟环境中让智能体多轮试错,再把获得的策略迁移到真实任务中。

Qwen-AgentWorld的发布,也说明大模型竞争正在从“回答问题”转向“理解环境并预测环境变化”。过去大模型主要比拼知识、推理和生成能力,智能体时代则更强调能否在多轮交互中判断动作后果。世界模型的价值,正是在动作和结果之间建立可训练、可评测、可扩展的模拟桥梁。

不过,语言世界模型仍不能替代真实环境。网页、操作系统、手机应用和工具调用都会受到版本、权限、网络状态和外部服务变化影响,模拟结果必须经过真实场景验证。Qwen-AgentWorld更适合作为智能体训练和评测基础设施,用来降低试错成本、扩大环境覆盖、发现智能体弱点,而不是直接等同于真实系统运行。

随着模型和基准同步开放,开发者可以围绕终端、软件工程、移动应用、搜索和工具调用等场景进行二次评测与微调。AI Agent要从演示走向可用,离不开更稳定的环境模拟、可复现的评测标准和面向真实任务的训练闭环,Qwen-AgentWorld正是在这一环节补上新的工具底座。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com