中国百度开源30亿参数Unlimited OCR模型

2026-06-26 14:59

关键词:

维度网讯，百度于6月22日开源推出Unlimited OCR模型，目标解决端到端OCR模型在解析长文档时越生成越慢的问题。该模型总参数量为30亿，推理时仅激活5亿参数。

百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢

端到端OCR模型采用统一神经网络架构，将文本检测与字符识别融合在一个系统中，直接从输入图像映射到文本序列输出，摒弃了传统先检测文字框再单独识别的流程。主流端到端OCR模型每生成一个token，都会扩大键值缓存（KV cache），导致显存占用和延迟持续上升，用户感知到多页文档解析越往后越慢。

百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢

Unlimited OCR延续DeepSeek OCR架构，保留DeepEncoder与混合专家（MoE）解码器。编码端采用两级视觉编码，在连接阶段执行16倍token压缩，将1024×1024的PDF图像压缩为256个视觉token，从源头减轻预填充负担。

训练方面，Unlimited OCR基于DeepSeek OCR检查点继续训练4000步，冻结DeepEncoder，仅训练解码器。训练数据约200万份文档样本，运行在8×16 A800 GPU上。数据配比为单页与多页约9:1，多页样本通过拼接构造获得。

百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢

基准测试显示，Unlimited OCR在OmniDocBench v1.5上整体得分为93.23，高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。其文本编辑距离为0.038，公式CDM为92.61，表格TEDS为90.93，读序编辑距离为0.045。在OmniDocBench v1.6上，模型整体得分进一步达到93.92。

百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢