维度网讯,杭州人工智能企业Om AI发布了全球首个面向物理世界的端侧流式多模态模型系列VLX。该系列包含三款模型,将在三天内陆续推出:VLX-Flow负责实时流式感知,使视频像水流一样持续输入,模型实时观察、实时思考并更新世界状态;VLX-Seek负责精准定位,从看见走向看清,快速锁定目标;VLX-Go负责行动决策,将感知和定位的结果转化为真实动作,明确行走方向和操作步骤。
这三款模型连接起来,构成了多模态模型从持续感知、精准定位到行动决策的能力闭环。其原生端侧设计使得模型能够真正在手机、无人机、机器人等端侧设备上运行。
Om AI并非首次涉足视觉语言领域。去年,该公司推出了VLM-R1,这是全球首个将DeepSeek R1强化学习范式引入视觉语言模型的开源项目,上线12小时获得超过2000颗GitHub Star,48小时登顶GitHub全球趋势榜,至今已获得6000多颗Star。
VLX系列围绕两个关键词设计:端侧与流式多模态。所谓流式多模态,是指让AI能够在物理世界中持续、实时地感知环境,并形成一条从感知到精准定位再到行动的完整能力链。这与语音助手中的流式多模态不同,后者强调人与AI的实时交互,而VLX关注AI在物理世界中持续观察、判断并驱动行动,完成从看图到做事的跨越。随着具身智能、空间智能、视频生成等领域的快速发展,视觉语言模型已不再仅仅是语言模型的能力模块,正逐渐成为空间理解、视频理解乃至动作规划的新一代基础设施。今年CVPR的数据显示,视觉语言模型和多模态相关论文占比已从去年的4.9%增长到10.6%,成为近年来增长最快的研究方向之一,其中实时感知和定位是最值得关注的两个关键词。
VLX-Flow负责持续感知。在真实世界中,物体始终处于运动状态,环境不断变化,视角频繁切换,一次性观察难以应对动态、开放且持续变化的环境。传统视频模型往往将整段视频切成帧,一次性送入模型做离线理解,视频一长不仅计算成本急剧上升,还容易丢失前文信息。Flow采用流式处理,画面像水流一样持续涌入,依靠增量编码和缓存机制不断更新视觉状态,无需反复重算历史,也不会因视频变长而失忆。技术层面,Flow使用Linear Attention替代标准Attention,并结合双层记忆机制,使视频流能够持续进入模型而不会因上下文增长导致显存爆炸。
VLX-Seek负责精细感知。许多通用视觉语言模型虽然擅长高层语义理解,但在精确定位、开放词汇检测和细粒度定位(Grounding)等任务上表现有限。传统方法采用自回归方式,一个坐标一个坐标地预测目标位置,速度慢且容易偏差。Seek改变了思路,不再猜坐标,而是先生成候选区域,再完成检索和匹配,将定位过程变成选区域。具体来说,Seek使用Region Token替代传统坐标生成,在保持识别能力的同时,大幅降低模型大小和端侧部署成本。这种方式更符合视觉感知任务本身,因此即使模型规模更小,也能在开放词汇检测、细粒度定位和实时跟踪等任务上保持稳定表现。
VLX-Go负责行动。传统视觉语言模型即使知道目标在左前方,最终也大多停留在文字回答阶段,真正走过去、绕开障碍、持续跟随目标仍需额外的控制系统。Go将单目视频、历史视觉记忆和自然语言指令作为输入,直接处理成机器人可执行的短时航点,预测未来一小段时间应该如何运动,而非仅输出文字建议。Go结合离线轨迹学习和在线强化学习,在仿真闭环中不断修正运动策略,使机器人能够根据实时视觉反馈持续调整轨迹,在目标跟随、导航、动态避障等任务中保持稳定表现。为满足端侧实时控制需求,Go采用轻量的短时航点预测方案,仅用0.6B参数即可完成实时运动规划。
Flow、Seek、Go三款模型并非彼此独立,而是共享同一个基座,在同一条视频流上完成端到端协作。从持续感知到精准定位再到行动决策,三者共同组成VLX面向物理世界的一条完整能力链。
对于机器人、无人机、摄像头等物理世界设备而言,端侧部署是模型真正落地的前提。许多云端多模态模型虽然已足够强大,但并不天然适合机器人和具身场景,因为真实世界是连续的、动态的、资源受限的。行业常见思路是先训练尽可能大的模型,再通过量化、蒸馏等方式压缩到端侧运行。VLX选择了不同路径,从设计之初就按照端侧的算力约束重新设计整个系统,模型架构、推理方式和部署链路均围绕实时视频流和端侧设备设计。
数据显示,VLX-Flow处理单路视频最快仅需0.06秒,同时能够稳定处理多路视频流;VLX-Go仅用约十分之一的参数规模就取得了优于更大模型的导航表现;VLX-Seek以3B级模型在目标检测等任务上达到甚至超过了更大规模通用模型的效果。
Om AI是一家来自杭州的人工智能公司,创始人兼CEO赵天成拥有CMU计算机博士学位,是吴文俊人工智能科技进步奖得主。团队成员来自CMU、清华、浙大、微软、阿里云等机构,拥有50多篇顶会论文和50多项发明专利。2022年,Om AI获得了工信部第一张多模态模型认证。此次发布的VLX是该公司围绕持续感知、精准定位和真实行动这一目标的最新成果。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com








