百度PaddleOCR-VL-1.6文档解析视觉语言模型

AI热点日报时间：2026-06-03

热点解读

百度飞桨团队最近放出了PaddleOCR-VL系列的最新升级版本——PaddleOCR-VL-1 6。说实话，这个结果挺震撼的：一个仅有0 9B参数的模型，在OmniDocBench v1 6权威基准测试中拿下了96 33%的SOTA成绩，同时在v1 5和Real5-OmniDocBench上也都刷

百度飞桨团队最近放出了PaddleOCR-VL系列的最新升级版本——PaddleOCR-VL-1.6。说实话，这个结果挺震撼的：一个仅有0.9B参数的模型，在OmniDocBench v1.6权威基准测试中拿下了96.33%的SOTA成绩，同时在v1.5和Real5-OmniDocBench上也都刷新了纪录。更关键的是，它在文本、公式、表格识别上全面领先，不管是开源还是闭源方案，都得往后稍稍。

模型架构跟1.5版本完全一致，这意味着如果你已经在用1.5版本，换到1.6就是零成本的即插即用——直接替换权重就完事了。

核心功能一览

先说说这个模型都能干些什么。功能覆盖得很全，几乎把文档解析的各个角落都照顾到了：

文本识别：通用文本识别，支持109种语言，OmniDocBench v1.6文本得分96.8。
公式识别：数学公式LaTeX识别，得分97.5，直接超越了GLM-OCR和MinerU。
表格识别：复杂表格结构解析，连合并单元格和多层表头都能搞定，TEDS得分94.8。
古籍识别：中文古籍、竖排文字识别能力大幅提升。
生僻字识别：罕见汉字识别显著增强。
印章识别：公章/印章文字提取与定位。
图表识别：饼图、折线图等11类图表解析为结构化数据。
文本检测（Spotting）：自然场景文字检测。
结构化输出：支持Markdown、JSON、DOCX格式导出。
跨页表格合并：自动识别并合并跨页表格。

技术原理：架构没变，但数据变了

它的技术方案很有意思。采用了“版面分析+VLM识别”的两阶段解耦架构：第一阶段由PP-DocLayoutV3检测25类文档元素，输出阅读顺序和坐标；第二阶段由0.9B参数的VLM逐元素识别。VLM内部使用NaViT动态分辨率视觉编码器，能自适应处理不同尺寸的图像，配合ERNIE-4.5-0.3B语言模型生成结构化输出，避免了固定分辨率导致的小字信息丢失。

1.6版本最大的看点在于——它是一次纯粹的“数据驱动升级”。模型结构和1.5完全一样，性能飞跃全部来自数据和训练策略的优化。团队仔细分析了1.5版本在OmniDocBench各子项中的薄弱环节，然后针对古籍、生僻字、印章、复杂表格这些场景做了定向数据增强。这里面有个叫“区域感知数据增强”的技术，值得单独拿出来说——针对薄弱区域引入CV模拟失真技术，在公式、文本等训练数据中模拟扫描、倾斜、光照、屏幕拍摄这些真实物理畸变；同时把文本发现任务的最大分辨率扩展到了2048×28×28像素，还注入了大规模印章和古籍专项数据。

训练策略上，采用了“预训练→SFT→强化学习”的渐进方案。预训练数据从2900万扩到了4600万图像-文本对；SFT阶段在原有OCR、表格、公式基础上新增了印章识别和文本发现任务；最后通过GRPO强化学习进一步对齐输出质量，实现了多任务统一。

怎么上手用

使用方式很灵活，适合不同的场景和用户群体：

本地安装：安装paddlepaddle-gpu==3.2.1（CUDA 12.6），然后pip install -U "paddleocr[doc-parser]"，环境配置完就能用了。
命令行使用：安装后运行paddleocr doc_parser -i your_document.png或者paddleocr doc_parser -i document.pdf，直接输出解析结果，支持单张图片和PDF批量处理。
Python API：导入PaddleOCRVL类初始化pipeline，调用predict()传入图片路径，结果可以通过print()查看，或者用sa ve_to_json()、sa ve_to_markdown()保存为结构化文件。
Docker部署：拉取官方镜像ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-nvidia-gpu，启动容器后直接在容器内运行，适合生产环境部署。
推理服务部署：执行paddleocr genai_server一键启动HTTP服务，支持vLLM、SGLang、FastDeploy、Transformers、llama.cpp等多种后端，适合高并发API调用场景。

核心优势

SOTA精度：OmniDocBench v1.6达96.33%，文本、公式、表格全维度第一。
极致轻量：0.9B参数，远小于Qwen3-VL-235B、GPT-5.2这类通用大模型。
零成本迁移：架构与1.5完全一致，直接替换权重即可。
真实场景鲁棒：在扫描、扭曲、屏幕拍摄、光照变化、倾斜5大场景均刷新SOTA。
多硬件支持：NVIDIA GPU（含Blackwell）、Apple Silicon、昆仑芯、昇腾、AMD、Intel全兼容。

竞品对比

拿它跟主流的GLM-OCR和MinerU 2.5比一下，差距还是挺明显的：

对比维度	PaddleOCR-VL-1.6	GLM-OCR	MinerU 2.5
开发方	百度飞桨	智谱AI	上海AI Lab / 清华
参数规模	0.9B	0.9B	1.2B
OmniDocBench v1.6	96.33%	95.22%	95.75%
文本识别	96.8	94.0	—
公式识别	97.5	96.5	—
表格识别 (TEDS)	94.8	85.2	88.4
真实场景鲁棒性	✅ SOTA	⚠️ 基础	⚠️ 基础
古籍/生僻字	✅ 显著增强	✅ 支持	⚠️ 一般
印章识别	✅ 增强	✅ 支持	❌ 未提及
部署成本	极低	极低	中等
开源协议	开源免费	开源免费	开源免费

第一回合：文本识别。PaddleOCR-VL-1.6的96.8分，直接把GLM-OCR的94.0给甩开了。第二回合：公式识别。GLM-OCR的96.5其实已经很强了，但PaddleOCR-VL-1.6的97.5还是略胜一筹。第三回合：表格识别。这一轮差距就大了，PaddleOCR-VL-1.6的94.8对GLM-OCR的85.2、MinerU的88.4，优势非常显著。别看MinerU在v1.6总分上跟GLM-OCR咬得很紧，但在更贴近现实的Real5-OmniDocBench上，差距就拉开了。

应用场景

文档数字化：将纸质档案、书籍、论文扫描件转换为Markdown或JSON结构化电子文档，支持批量处理。
企业办公：自动提取合同、发片、报表、审批单中的关键信息，对接ERP或OA系统实现流程自动化。
教育科研：识别学术论文中的复杂公式（LaTeX输出）和表格数据，辅助文献整理与知识提取。
金融服务：解析银&行票据、财务报表、对账单，实现数据自动录入与合规审计。
医疗健康：结构化录入病历、检查报告、处方单，支持医院信息化系统对接。

说实话，0.9B的参数能做到这个程度，技术路径的选择和数据工程的质量都是关键。它不是靠堆算力、堆参数量来取胜的，而是用更精巧的架构设计和更精准的数据策略，把每一分计算资源都用在了刀刃上。这才是真正的“因为专注，所以专业”。

项目代码和模型权重都已经在官方渠道开源，感兴趣的话可以自己去体验一下。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：百度PaddleOCR-VL-1.6文档解析视觉语言模型要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai-bot.cn/paddleocr-vl-1-6/

语言模型

上一篇：火山引擎MaaS年营收目标150亿，Seedance 2.0月入10亿

下一篇：字节跳动开源视频生成与编辑框架Bernini

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。