中国DeepSeek开启识图模式灰度内测，补齐视觉理解多模态能力

2026-04-30 08:37

关键词:

维度网讯，中国人工智能企业DeepSeek于2026年4月29日正式启动“识图模式”灰度内测，部分用户在网页端与应用端已可在模型选择栏中看到该模式入口。这一模式与此前上线的“快速模式”“专家模式”并列，标志DeepSeek首次在主产品中将视觉理解作为独立交互形态呈现。DeepSeek多模态团队研究员陈小康于4月28日上午在X平台发布推文预告“Soon, we see you”，配图为两只蓝色鲸鱼——左侧戴眼罩、右侧露出眼睛，暗示DeepSeek视觉能力的即将上线，随后该推文被删除。

灰度测试用户在chat.deepseek.com页面的输入框上方可看到三个并列标签，其中新增的“识图模式”标签悬停后显示“图片理解功能内测中”提示。进入识图模式后，对话页面提示“使用识图模式开始对话”，输入框旁出现图片上传按钮。并非所有用户均能正常使用该功能，部分用户虽能看到入口标签，但操作时收到“识图模式暂不可用，请稍后再试”的提示。V2EX用户MichaelBitzo于4月29日下午发帖称DeepSeek API已返回“识图模式”字段，但跟帖用户实测反馈该接口调用尚未对外开放。DeepSeek官方迄今未就灰度内测发布正式公告。

用户实测反馈显示，识图模式并非此前“快速模式”支持的OCR图片文字提取，而是具备对图像内容的视觉理解能力。有用户上传人物照片并提问“这是什么动作姿势”，模型经8秒思考后按位置、手臂、头部、头发、着装、光影逐项拆解画面，给出“慵懒风躺姿”或“清冷氛围感姿势”的判断，并关联小红书、抖音等社交媒体语境标签。思考过程中模型还进行了一步自我修正：先列出“淑女姿势”“忧郁自拍姿势”等可能解读，再判定“慵懒氛围感姿势”最能涵盖所有细节后输出结论。这种结构化拆解、自我复核加文化语境识别的组合超出此前DeepSeek主线产品的图片处理能力层次。APPSO团队的实测进一步显示，该模型在解读陈小康发布的鲸鱼配图时，自行追问了发布者身份、发文意图及眼罩符号含义，最终输出“那个看不见世界的鲸鱼，现在终于睁开眼了”的总结性判断。

浏览器F12控制台中可捕获与识图模式相关的网络响应内容，包括{model_type: “vision”， name: “识图模式”， description: “图片理解功能内测中”}等字段。客户端近期迭代中，模型选择栏已新增“快速”“专家”及“视觉”三个独立选项，“视觉”选项被外界视为为后续上线的新版多模态DeepSeek V4预留的接口。4月24日发布的DeepSeek V4预览版聚焦百万级长上下文、Agent能力与推理性能三方面，未包含原生多模态功能，视觉理解能力的缺失被媒体复盘视为V4显著的短板。此次灰度内测的识图模式上线时间距V4发布仅隔4天，被视为对V4核心能力拼图的快速补位。

识图模式开放的主要为静态图像理解能力，涵盖视觉问答、图片理解与截图分析等场景，尚未支持图像生成、视频理解或跨模态生成。从功能范畴判断，当前阶段更接近视觉语言模型的范畴而非完整的多模态生成工具。用户上传文件格式存在限制，暂不支持HEIF等格式。实测中部分极限测试如“数手指”“爱心测试”仍会出现错误识别，但常规场景下的准确率整体较高，不开启思考模式时响应速度接近即时反馈。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告之，本站将予以修改或删除。邮箱：news@wedoany.com

中国