维度网讯,在多模态模型从演示迈向生产部署的背景下,Step 3.7 Flash、Qwen3.6-flash和MiniMax M3三款模型在开发与业务场景中接受了实测。一项针对流程图识别与票据解析两项任务的对比测评显示,三者在视觉理解与结构化输出上的质量较为稳定,但在响应速度和Token消耗上存在差异。
测评围绕质量、速度和成本三个维度,选取了两类工业场景:一是在Agent开发过程中根据系统流程图还原业务逻辑,二是在业务系统中通过API调用实现发票信息的结构化提取。测试表明,三款模型在两项任务上均未出现严重误识别,输出可用性较高。
在流程图理解场景中,模型需根据一张微信小程序登录鉴权的流程图准确提取出10个步骤的业务逻辑。Step 3.7 Flash完整识别出10步,每一步逻辑与原始流程图完全吻合。MiniMax M3同样输出10个步骤,逻辑正确。Qwen3.6-flash则将步骤3和4合并,输出9个步骤,但整体逻辑无误。在输出质量相当的前提下,Step 3.7 Flash的响应速度最快,Token消耗最低。
在另一项面向业务系统的测试中,模型需将一张电子发票中的关键字段按预设JSON结构输出。三款模型均能准确识别并结构化输出所需信息。Step 3.7 Flash完成该任务耗时5.6秒,消耗1409 tokens;MiniMax M3耗时6.1秒,消耗2216 tokens;Qwen3.6-flash耗时7.38秒,消耗2008 tokens。单张票据的结构化提取成本均低于1分钱。
综合两项测试,三款模型在视觉理解与结构化输出上的质量稳定性均能满足初步生产要求,未出现误提取情况。针对高频调用的Agent或业务API场景,响应延迟与Token消耗成为关键区分指标。在这组对比中,Step 3.7 Flash在保持同等输出质量的同时,响应速度更快、成本更低,更适合优先投入生产环境进行测试。










