中国阶跃星辰推出Step 3.7 Flash推理模型
2026-06-15 09:54
收藏

维度网讯,英伟达(Nvidia)继续扩充其产品组合,新增若干模型,其中最大的模型仅作预告。与此同时,微软(Microsoft)在6月初的Build大会上发布了一系列模型,但遗憾的是均为闭源,这一举动使其进一步与OpenAI拉开距离。

总部位于上海的AI公司阶跃星辰(StepFun)在春季成功推出模型3.5后,发布了新款推理模型Step 3.7 Flash。该模型架构与前代类似,但新增了视觉编码器(Vision Encoder),使其能够理解图像。推理功能现已可配置,避免了针对简单问题立即积累大量Token,对代理(agentic)用途尤为有用。与许多中国模型一样,其前代曾受严格审查;3.7版本变化不大,但模型在推理区域会给出事实,然后在最终回答时被抑制,这显然是最后阶段训练施加的护栏(guardrails)所致。除此之外,回答大多正确。有趣的是,针对德语问题,推理过程大部分使用德语进行,而像“wait”这类打断词仍为英语,这与几乎所有其他仅用英语论证的模型不同。社区对该模型评价颇高,尤其适合与编码代理(Coding Agents)配合使用。在阶跃星辰网站上,其数据远优于旧模型,甚至超越了DeepSeek V4 Flash。Step 3.7 Flash的结果可在本文的GitHub仓库中找到。

MiniMax推出的M3模型虽被标称为“开放权重”(Open Weight),但目前尚无法在Hugging Face下载权重,仅可通过MiniMax.ai或OpenRouter直接试用。MiniMax优化了注意力架构:第一阶段决定哪些Token重要,第二阶段将这些Token传递给完整注意力计算。MiniMax声称,M3处理提示(prompts)的速度几乎比M2快十倍,生成速度甚至快15倍。目前尚无公开基准测试,但MiniMax自身数据显示,在编码领域,如果数据准确,它大概能与Anthropic的最佳模型一较高下。MiniMax M3的结果可在本文的GitHub仓库中找到。

Liquid AI为其Liquid Foundation Models采用了独特架构,使Token生成极为高效,且能在CPU上良好运行。新推出的LFM2.5-8B-A1B仅有十亿活跃参数,旨在与较大的模型如gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507和Gemma-4-26B-A4B-IT竞争。在Mac Studio M2 Ultra上,该模型速度达近200 Token/秒,虽无法完全匹敌大模型,但适用于专用应用或代理场景。LFM2.5-8B-A1B的结果可在本文的GitHub仓库中找到。

英伟达(Nvidia)发布了多项模型更新。LocateAnything模型可用于分析图像,输出包含特定对象的边界框;其处理过程高度并行,甚至能分析扫描文档,适用于识别GUI元素并通过代理操作浏览器。该模型体积约8 GB,可在消费级GPU上运行。像素扩散解码器(Pixel Diffusion Decoder)在像素空间中引入新颖的扩散模型,但操作仍很繁琐,须从Hugging Face页面下载检查点并使用专门程序处理。Nemotron 3 Ultra模型拥有5500亿参数,其中550亿活跃,采用了NVFP4数据类型和优化的注意力机制(包含大量Mamba层),上下文长度可达100万Token。但Nemotron 3 Ultra尚未完全赶上中国的开源模型。与所有Nemotron模型一样,英伟达提供了大部分训练数据和代码,使其在透明度上达到很高开放程度,只有规模小得多的AI公司Olmo或Apertus模型具备类似水平。从回答中可以感受到模型的西方来源:在中国模型谨慎回避时,该模型常常给出更清晰、政治更中立或观点不同的回答。Nemotron 3 Ultra的结果可在本文的GitHub仓库中找到。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com