智谱发布开源GLM-OCR模型,0.9B参数实现文档解析新突破
2026-02-03 09:45
收藏

智谱近日正式发布并开源GLM-OCR模型,该模型以0.9B的轻量化参数规模,在文档解析领域实现性能突破。在OmniDocBench V1.5等主流基准测试中,GLM-OCR以94.6分的成绩登顶SOTA(当前最优性能),成为同类模型中兼顾效率与精度的标杆。

GLM-OCR模型专为复杂文档场景设计,针对手写体识别、表格结构解析、印章内容提取及代码文档理解等高难度任务进行优化。技术团队通过自研的CogViT视觉编码器与多Tokens预测损失训练策略,在保持模型轻量的同时显著提升解析能力。实测数据显示,该模型在处理百万Tokens时成本仅0.2元,且支持vLLM、SGLang和Ollama三种主流部署框架,用户可通过一行命令快速调用开源SDK与推理工具链。

"传统OCR模型在复杂场景中常面临精度与速度的权衡难题,"智谱技术负责人表示:"GLM-OCR通过创新架构设计,在保持0.9B参数规模下实现了94.6分的基准测试成绩,为移动端、边缘设备等资源受限场景提供了高效解决方案。"目前,该模型已覆盖中英文及多语言文档解析,支持PDF、图片、扫描件等20余种格式输入。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com