中国千问发布Qwen-AgentWorld语言世界模型

2026-06-24 11:56

关键词:

维度网讯，6月24日，中国千问正式发布原生语言世界模型Qwen-AgentWorld，同步推出覆盖七大领域的语言世界模型评测基准AgentWorldBench。该模型与评测基准已在Hugging Face和ModelScope开放获取，面向AI智能体环境模拟、任务训练和能力评测等场景。

Qwen-AgentWorld的核心定位是“语言世界模型”，不是普通对话大模型。它通过语言形式模拟智能体所处环境的状态变化，根据智能体动作和历史交互记录，预测下一步环境反馈。对AI智能体来说，这类模型相当于提供一个可反复试错的虚拟交互空间，用于训练和评估智能体在复杂任务中的规划、执行和纠错能力。

此次发布的Qwen-AgentWorld覆盖七大智能体交互领域，包括MCP工具调用、搜索、终端、软件工程、Android、网页和操作系统。这些领域既包含文本环境，也包含图形界面和软件操作环境，覆盖了当前AI Agent常见的任务入口。模型可用于模拟终端命令执行结果、网页操作反馈、手机应用界面变化、软件工程任务进展以及工具调用后的环境响应。

官方信息显示，Qwen-AgentWorld-35B-A3B基于Qwen3.5-35B-A3B-Base训练，总参数规模35B，激活参数约3B，支持262K上下文长度。其训练流程包括持续预训练、监督微调和强化学习三个阶段，目标从早期训练阶段就聚焦环境建模，而不是在通用语言模型基础上临时增加模拟能力。

同步发布的AgentWorldBench用于评测语言世界模型在不同交互环境中的模拟质量。该基准从格式、事实性、一致性、真实感和质量五个维度对模型预测的环境观察结果进行评分，帮助研究者比较不同模型在环境模拟任务中的表现。Hugging Face页面显示，AgentWorldBench数据集以测试集形式开放，包含约2170条样本。

这类模型对AI Agent研发有直接意义。当前智能体训练面临一个现实问题：真实环境调用成本高，任务状态复杂，API、网页、终端和移动应用环境难以大规模稳定复现。如果语言世界模型能够较准确地模拟环境反馈，研究者就可以在虚拟环境中让智能体多轮试错，再把获得的策略迁移到真实任务中。

Qwen-AgentWorld的发布，也说明大模型竞争正在从“回答问题”转向“理解环境并预测环境变化”。过去大模型主要比拼知识、推理和生成能力，智能体时代则更强调能否在多轮交互中判断动作后果。世界模型的价值，正是在动作和结果之间建立可训练、可评测、可扩展的模拟桥梁。

不过，语言世界模型仍不能替代真实环境。网页、操作系统、手机应用和工具调用都会受到版本、权限、网络状态和外部服务变化影响，模拟结果必须经过真实场景验证。Qwen-AgentWorld更适合作为智能体训练和评测基础设施，用来降低试错成本、扩大环境覆盖、发现智能体弱点，而不是直接等同于真实系统运行。

随着模型和基准同步开放，开发者可以围绕终端、软件工程、移动应用、搜索和工具调用等场景进行二次评测与微调。AI Agent要从演示走向可用，离不开更稳定的环境模拟、可复现的评测标准和面向真实任务的训练闭环，Qwen-AgentWorld正是在这一环节补上新的工具底座。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国