DeepSeek-OCR 2发布：AI视觉识别实现逻辑化突破

2026-01-27 15:26

关键词:

27日，DeepSeek正式推出新一代光学字符识别系统DeepSeek-OCR 2，通过引入DeepEncoder V2技术，使AI能够以类似人类的逻辑顺序理解图像内容，在视觉识别领域实现重要技术突破。这一创新可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景，推动行业向智能化方向迈进。

DeepSeek-OCR 2的核心创新在于改变传统AI处理图像的方式。传统方法通常采用从左到右的刚性扫描模式，而DeepEncoder V2技术让AI能够基于图像含义动态重新排列图像片段，模仿人类追随场景逻辑流的方式。这种“因果流”解读方式使AI能够更准确地理解图像中的空间关系和语义信息，从而提升识别精度。

根据DeepSeek公布的技术报告，DeepSeek-OCR 2在多项关键指标上表现优异。在OmniDocBench v1.5基准测试中，该模型取得91.09%的成绩，较前代提升3.73%。同时，其视觉Token数量被限制在256至1120之间，与Google的Gemini-3 Pro保持一致，有效控制了计算成本。在实际生产环境中，该模型处理在线用户日志和PDF预训练数据时的重复率分别下降2.08%和0.81%，显示出较高的实用成熟度。

DeepSeek-OCR 2的发布标志着AI视觉识别技术进入新阶段。通过让AI学会“人类视觉逻辑”，该系统不仅提升了识别精度，还降低了计算成本，为文档处理、图表分析等领域提供了更高效的解决方案。这一技术突破或将颠覆传统文档处理模式，开启原生多模态推理新路径。

中国