GLM-OCR - 智谱开源的轻量级多模态OCR模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

GLM-OCR - 智谱开源的轻量级多模态OCR模型

热心网友时间：2026-04-22

转载

GLM-OCR是什么 OCR领域最近有了个亮眼的新选择：智谱AI开源的GLM-OCR。别看它参数规模只有0 9B，相当轻量，但在权威的OmniDocBench V1 5榜单上，却以94 6的高分登顶，证明了其顶级的技术实力。这个模型基于成熟的GLM-V架构打造，核心是集成了自研的CogViT视觉编码

GLM-OCR是什么

OCR领域最近有了个亮眼的新选择：智谱AI开源的GLM-OCR。别看它参数规模只有0.9B，相当轻量，但在权威的OmniDocBench V1.5榜单上，却以94.6的高分登顶，证明了其顶级的技术实力。这个模型基于成熟的GLM-V架构打造，核心是集成了自研的CogViT视觉编码器和一个设计精巧的轻量级跨模态连接层。为了让模型在复杂场景下更“抗打”，研发团队还引入了多Token预测损失和强化学习训练策略。结果就是，无论是面对手写体、复杂表格、代码文档，还是印章、多语言混排这些传统OCR的“噩梦级”场景，它都能交出令人满意的答卷。更实用的是，它能直接输出HTML表格和JSON结构化数据，推理速度能达到每秒1.86页，并且兼容vLLM、SGLang、Ollama等多种主流部署框架，无论是文档解析、票据信息提取，还是为RAG系统准备高质量数据，它都能轻松胜任。

GLM-OCR的主要功能

通用文本识别

从常见的照片、截图、扫描件到PDF，各种格式的文档它都能处理。不止是标准印刷体，对于手写笔迹、印章文字、甚至是程序代码这类特殊文字，它同样具备出色的识别能力。

复杂表格解析

这才是真正考验功力的地方。对于包含合并单元格、多层表头等复杂结构的表格，模型能够精准理解其逻辑关系，并直接输出可用的HTML代码，省去了手动二次制表的麻烦。

信息结构化提取

面对身份证、银&行卡、发片或单据，模型能像一位熟练的专员，智能定位并提取出姓名、号码、金额、日期等关键字段，输出标准化的JSON格式，方便直接与业务系统对接。

公式与代码识别

对于技术文档和学术资料中的“硬骨头”——数学公式和程序代码，GLM-OCR也能准确识别，这为科研和开发场景下的知识管理提供了有力工具。

多语言与混排支持

竖排文字、中文里夹杂着英文、日文、韩文？这类复杂的版式和多语言混排内容，同样在它的能力范围之内。

批量文档处理

支持大批量文档的自动化处理，输出格式统一规整。这个特性尤其关键，因为它能为当下热门的RAG应用提供高质量、结构化的数据基础，直接影响最终的知识检索效果。

GLM-OCR的技术原理

整体架构

GLM-OCR采用了经典的“编码器-解码器”架构，整体上继承自GLM-V系列。具体来看，它由三个核心模块构成：负责视觉信息处理的CogViT视觉编码器（参数规模约400M）、担任“翻译官”角色的轻量跨模态连接层，以及后端负责文字生成的GLM-0.5B语言解码器。

视觉编码

视觉理解是OCR的基石。GLM-OCR采用了智谱自研的CogViT架构作为视觉编码器，并在数十亿级别的图文对上，引入了CLIP对比学习策略进行大规模预训练。这番操练让模型练就了强大的文字检测与版面语义理解能力，足以应对复杂文档中的多栏布局、图文混排、文字旋转等各种挑战。

跨模态融合

如何把“看到”的内容高效地“说”出来？这就要靠跨模态融合层了。GLM-OCR设计了一个轻量而高效的连接层，融合了SwiGLU激活机制，并引入了4倍下采样策略。这个设计能精准筛选并保留关键的视觉信息Token，将高密度的视觉语义高效压缩后传递给语言解码器，从而支撑起高精度的文本识别输出。

训练优化

在训练策略上，GLM-OCR有两个值得一提的创新。首先，它率先将多Token预测损失（MTP）引入OCR模型训练，通过同时预测多个未来的Token，增强了损失信号的密度，显著提升了模型的学习效率。其次，通过持续且稳定的全任务强化学习训练，进一步优化了模型在复杂文档场景下的整体识别精度与跨领域泛化能力。

推理流程

在系统层面，GLM-OCR遵循的是一个清晰的两阶段范式：“先分析版面，再并行识别”。具体来说，首先基于PP-DocLayout-V3进行文档版面分析，精准定位出文本、表格、图片等不同区域；然后，对这些区域并行执行OCR识别。这套流程确保了在版式多样、结构复杂的真实文档场景下，模型依然能实现稳定、高质量且高效率的解析效果。