中国阶跃星辰推出Step 3.7 Flash推理模型

2026-06-15 09:54

关键词:

维度网讯，英伟达(Nvidia)继续扩充其产品组合，新增若干模型，其中最大的模型仅作预告。与此同时，微软(Microsoft)在6月初的Build大会上发布了一系列模型，但遗憾的是均为闭源，这一举动使其进一步与OpenAI拉开距离。

总部位于上海的AI公司阶跃星辰(StepFun)在春季成功推出模型3.5后，发布了新款推理模型Step 3.7 Flash。该模型架构与前代类似，但新增了视觉编码器(Vision Encoder)，使其能够理解图像。推理功能现已可配置，避免了针对简单问题立即积累大量Token，对代理(agentic)用途尤为有用。与许多中国模型一样，其前代曾受严格审查；3.7版本变化不大，但模型在推理区域会给出事实，然后在最终回答时被抑制，这显然是最后阶段训练施加的护栏(guardrails)所致。除此之外，回答大多正确。有趣的是，针对德语问题，推理过程大部分使用德语进行，而像“wait”这类打断词仍为英语，这与几乎所有其他仅用英语论证的模型不同。社区对该模型评价颇高，尤其适合与编码代理(Coding Agents)配合使用。在阶跃星辰网站上，其数据远优于旧模型，甚至超越了DeepSeek V4 Flash。Step 3.7 Flash的结果可在本文的GitHub仓库中找到。

MiniMax推出的M3模型虽被标称为“开放权重”(Open Weight)，但目前尚无法在Hugging Face下载权重，仅可通过MiniMax.ai或OpenRouter直接试用。MiniMax优化了注意力架构：第一阶段决定哪些Token重要，第二阶段将这些Token传递给完整注意力计算。MiniMax声称，M3处理提示(prompts)的速度几乎比M2快十倍，生成速度甚至快15倍。目前尚无公开基准测试，但MiniMax自身数据显示，在编码领域，如果数据准确，它大概能与Anthropic的最佳模型一较高下。MiniMax M3的结果可在本文的GitHub仓库中找到。

Liquid AI为其Liquid Foundation Models采用了独特架构，使Token生成极为高效，且能在CPU上良好运行。新推出的LFM2.5-8B-A1B仅有十亿活跃参数，旨在与较大的模型如gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507和Gemma-4-26B-A4B-IT竞争。在Mac Studio M2 Ultra上，该模型速度达近200 Token/秒，虽无法完全匹敌大模型，但适用于专用应用或代理场景。LFM2.5-8B-A1B的结果可在本文的GitHub仓库中找到。

英伟达(Nvidia)发布了多项模型更新。LocateAnything模型可用于分析图像，输出包含特定对象的边界框；其处理过程高度并行，甚至能分析扫描文档，适用于识别GUI元素并通过代理操作浏览器。该模型体积约8 GB，可在消费级GPU上运行。像素扩散解码器(Pixel Diffusion Decoder)在像素空间中引入新颖的扩散模型，但操作仍很繁琐，须从Hugging Face页面下载检查点并使用专门程序处理。Nemotron 3 Ultra模型拥有5500亿参数，其中550亿活跃，采用了NVFP4数据类型和优化的注意力机制（包含大量Mamba层），上下文长度可达100万Token。但Nemotron 3 Ultra尚未完全赶上中国的开源模型。与所有Nemotron模型一样，英伟达提供了大部分训练数据和代码，使其在透明度上达到很高开放程度，只有规模小得多的AI公司Olmo或Apertus模型具备类似水平。从回答中可以感受到模型的西方来源：在中国模型谨慎回避时，该模型常常给出更清晰、政治更中立或观点不同的回答。Nemotron 3 Ultra的结果可在本文的GitHub仓库中找到。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国