中国百度开源30亿参数Unlimited OCR模型
2026-06-26 14:59
收藏

维度网讯,百度于6月22日开源推出Unlimited OCR模型,目标解决端到端OCR模型在解析长文档时越生成越慢的问题。该模型总参数量为30亿,推理时仅激活5亿参数。

百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢

端到端OCR模型采用统一神经网络架构,将文本检测与字符识别融合在一个系统中,直接从输入图像映射到文本序列输出,摒弃了传统先检测文字框再单独识别的流程。主流端到端OCR模型每生成一个token,都会扩大键值缓存(KV cache),导致显存占用和延迟持续上升,用户感知到多页文档解析越往后越慢。

百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢

Unlimited OCR延续DeepSeek OCR架构,保留DeepEncoder与混合专家(MoE)解码器。编码端采用两级视觉编码,在连接阶段执行16倍token压缩,将1024×1024的PDF图像压缩为256个视觉token,从源头减轻预填充负担。

训练方面,Unlimited OCR基于DeepSeek OCR检查点继续训练4000步,冻结DeepEncoder,仅训练解码器。训练数据约200万份文档样本,运行在8×16 A800 GPU上。数据配比为单页与多页约9:1,多页样本通过拼接构造获得。

百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢

基准测试显示,Unlimited OCR在OmniDocBench v1.5上整体得分为93.23,高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。其文本编辑距离为0.038,公式CDM为92.61,表格TEDS为90.93,读序编辑距离为0.045。在OmniDocBench v1.6上,模型整体得分进一步达到93.92。

百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com