斯坦福大学科学家推出的OctoTools是一款开源代理平台,旨在通过任务分解和工具增强提升大型语言模型(LLM)的推理能力。该平台突破传统技术壁垒,允许开发人员与企业自定义工具和工作流程,使LLM应用更具普适性。实验显示,OctoTools在多项任务中超越经典提示法及其他框架,成为AI实际应用的有力工具。

大型语言模型在处理多步骤推理、逻辑拆解或专业知识任务时常显不足。解决之道在于借助外部工具,如计算器、代码解释器或搜索引擎,让模型专注高级规划,具体计算与推理交由工具完成。然而,传统LLM需大量训练或精选数据适应新工具,且局限于特定领域,工具选择不当还可能导致性能下滑。OctoTools采用免训练的模块化设计,兼容通用LLM,通过“工具卡”封装工具功能,涵盖Python解释器、Web搜索API等,元数据定义了输入输出格式与使用规范,便于扩展。
任务执行时,“规划器”模块依托LLM生成高级计划,分析目标、所需技能及相关工具,分解为子目标并形成行动方案。“动作预测器”细化每步子目标,指定工具并确保可执行性。随后,“命令生成器”将计划转为Python代码,交由“命令执行程序”运行,结果经“上下文验证器”检查,最终由“解决方案汇总器”整合。研究人员强调,分隔规划与命令生成减少了错误,提升了系统透明度与可靠性。此外,工具优化算法筛选最佳工具组合,避免冗余干扰。
相较于AutoGen、LangChain及OpenAI的“函数调用”等框架,OctoTools在视觉、数学、科学推理及医学任务基准中表现更优。使用相同工具时,其平均准确率提升10.6%(超AutoGen)、7.5%(超GPT函数)、7.3%(超LangChain),得益于精准的工具分配与任务分解。OctoTools为企业处理复杂任务提供了实用方案,其可扩展性有望推动高级AI推理应用的发展,代码已于GitHub公开。









