中国DeepSeek开启识图模式灰度内测,补齐视觉理解多模态能力
2026-04-30 08:37
收藏

维度网讯,中国人工智能企业DeepSeek于2026年4月29日正式启动“识图模式”灰度内测,部分用户在网页端与应用端已可在模型选择栏中看到该模式入口。这一模式与此前上线的“快速模式”“专家模式”并列,标志DeepSeek首次在主产品中将视觉理解作为独立交互形态呈现。DeepSeek多模态团队研究员陈小康于4月28日上午在X平台发布推文预告“Soon, we see you”,配图为两只蓝色鲸鱼——左侧戴眼罩、右侧露出眼睛,暗示DeepSeek视觉能力的即将上线,随后该推文被删除。

灰度测试用户在chat.deepseek.com页面的输入框上方可看到三个并列标签,其中新增的“识图模式”标签悬停后显示“图片理解功能内测中”提示。进入识图模式后,对话页面提示“使用识图模式开始对话”,输入框旁出现图片上传按钮。并非所有用户均能正常使用该功能,部分用户虽能看到入口标签,但操作时收到“识图模式暂不可用,请稍后再试”的提示。V2EX用户MichaelBitzo于4月29日下午发帖称DeepSeek API已返回“识图模式”字段,但跟帖用户实测反馈该接口调用尚未对外开放。DeepSeek官方迄今未就灰度内测发布正式公告。

用户实测反馈显示,识图模式并非此前“快速模式”支持的OCR图片文字提取,而是具备对图像内容的视觉理解能力。有用户上传人物照片并提问“这是什么动作姿势”,模型经8秒思考后按位置、手臂、头部、头发、着装、光影逐项拆解画面,给出“慵懒风躺姿”或“清冷氛围感姿势”的判断,并关联小红书、抖音等社交媒体语境标签。思考过程中模型还进行了一步自我修正:先列出“淑女姿势”“忧郁自拍姿势”等可能解读,再判定“慵懒氛围感姿势”最能涵盖所有细节后输出结论。这种结构化拆解、自我复核加文化语境识别的组合超出此前DeepSeek主线产品的图片处理能力层次。APPSO团队的实测进一步显示,该模型在解读陈小康发布的鲸鱼配图时,自行追问了发布者身份、发文意图及眼罩符号含义,最终输出“那个看不见世界的鲸鱼,现在终于睁开眼了”的总结性判断。

浏览器F12控制台中可捕获与识图模式相关的网络响应内容,包括{model_type: “vision”, name: “识图模式”, description: “图片理解功能内测中”}等字段。客户端近期迭代中,模型选择栏已新增“快速”“专家”及“视觉”三个独立选项,“视觉”选项被外界视为为后续上线的新版多模态DeepSeek V4预留的接口。4月24日发布的DeepSeek V4预览版聚焦百万级长上下文、Agent能力与推理性能三方面,未包含原生多模态功能,视觉理解能力的缺失被媒体复盘视为V4显著的短板。此次灰度内测的识图模式上线时间距V4发布仅隔4天,被视为对V4核心能力拼图的快速补位。

识图模式开放的主要为静态图像理解能力,涵盖视觉问答、图片理解与截图分析等场景,尚未支持图像生成、视频理解或跨模态生成。从功能范畴判断,当前阶段更接近视觉语言模型的范畴而非完整的多模态生成工具。用户上传文件格式存在限制,暂不支持HEIF等格式。实测中部分极限测试如“数手指”“爱心测试”仍会出现错误识别,但常规场景下的准确率整体较高,不开启思考模式时响应速度接近即时反馈。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告之,本站将予以修改或删除。邮箱:news@wedoany.com