DeepSeek-OCR 2发布:AI视觉识别实现逻辑化突破
2026-01-27 15:26
收藏

27日,DeepSeek正式推出新一代光学字符识别系统DeepSeek-OCR 2,通过引入DeepEncoder V2技术,使AI能够以类似人类的逻辑顺序理解图像内容,在视觉识别领域实现重要技术突破。这一创新可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景,推动行业向智能化方向迈进。

DeepSeek-OCR 2的核心创新在于改变传统AI处理图像的方式。传统方法通常采用从左到右的刚性扫描模式,而DeepEncoder V2技术让AI能够基于图像含义动态重新排列图像片段,模仿人类追随场景逻辑流的方式。这种“因果流”解读方式使AI能够更准确地理解图像中的空间关系和语义信息,从而提升识别精度。

根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上表现优异。在OmniDocBench v1.5基准测试中,该模型取得91.09%的成绩,较前代提升3.73%。同时,其视觉Token数量被限制在256至1120之间,与Google的Gemini-3 Pro保持一致,有效控制了计算成本。在实际生产环境中,该模型处理在线用户日志和PDF预训练数据时的重复率分别下降2.08%和0.81%,显示出较高的实用成熟度。

DeepSeek-OCR 2的发布标志着AI视觉识别技术进入新阶段。通过让AI学会“人类视觉逻辑”,该系统不仅提升了识别精度,还降低了计算成本,为文档处理、图表分析等领域提供了更高效的解决方案。这一技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com