腾讯联合高校推出视觉感知评测基准ChroniclesOCR

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

腾讯联合高校推出视觉感知评测基准ChroniclesOCR

热心网友时间：2026-05-19

转载

Chronicles-OCR是什么

如果让当今最先进的AI视觉大模型去“阅读”三千年前的甲骨文，它能准确识别吗？这正是Chronicles-OCR评测基准致力于解决的核心科学问题。作为业内首个系统性覆盖汉字“七体之变”完整演化历程的跨时代视觉感知评测体系，它由腾讯混元团队联合中国科学院信息工程研究所、安阳师范学院、南开大学及故宫博物院共同推出，具有里程碑意义。

简而言之，Chronicles-OCR就像一份为AI精心设计的、横跨三千年的汉字“终极阅读理解”测试。这份测试集囊括了从殷商甲骨文到近现代草书在内的七大代表性字体，共包含2800张高质量、经专家严格校验的图像样本。其独特价值在于采用了创新的“阶段自适应”标注方法，并设计了四大核心评测任务，专门用于评估当前热门的视觉大语言模型在面对数千年汉字形态剧烈演变时，其视觉感知与理解能力的鲁棒性与泛化性究竟如何。

Chronicles-OCR的主要功能

该基准的功能设计系统而全面，旨在从多维度、精细化地探测与诊断模型的能力极限：

七体全覆盖评测：完整涵盖甲骨文、金文、篆书、隶书、楷书、行书、草书这七大汉字演变关键字体，构建了从殷商到近现代的跨时间评测体系。这意味着模型需要同时理解古老的象形文字与高度抽象流畅的草书。
阶段自适应标注：针对古文字与现代文字的显著差异，采用差异化标注策略。对于甲骨文、金文、篆书等古文字，提供单字级边界框及其对应的现代汉字映射；对于隶、楷、行、草等成熟字体，则提供序列级的文本行布局与阅读顺序标注，更贴近现代OCR实际应用场景。
四大核心评测任务：任务设计由浅入深，包括跨时期字符定位、细粒度古文字识别、古文本解析以及字体分类，旨在全方位评估模型从字符定位、精确识别到上下文理解与归类的综合视觉语言能力。
视觉指代评估机制：这是一个精巧的评估设计。通过用彩色提示框在图像中明确标出目标字符，再要求模型识别，从而将字符的“解码”能力与其在复杂版面中的“空间定位”能力解耦评估，有助于更精准地定位模型的具体缺陷。
高质量专家标注：数据质量是基准可靠性的基石。所有标注工作均由古文字学博士、研究生及领域专家进行多轮交叉校验与审核，确保了字体分类、边界框和字符转录的极高准确性，学术严谨性极强。
权威数据源整合：数据来源可靠、权威。甲骨文样本来自安阳师范学院甲骨文信息处理教育部重点实验室，金文和篆书由专业古文字学团队整理，而隶、楷、行、草字体样本则直接取自故宫博物院的文物手写体识别测试数据集。
模型鲁棒性深度诊断：其最终目的不仅是性能排名，更是深度诊断。它旨在系统性地揭示视觉大语言模型在应对数千年汉字形态演化过程中的感知能力边界与瓶颈，为模型从现代文档解析向复杂历史书写系统泛化提供关键优化方向。

如何使用Chronicles-OCR

对于从事AI、OCR或数字人文研究的人员及开发者，可以遵循以下清晰路径使用该基准进行评测或相关研究：

访问开源仓库：首先访问其GitHub开源项目页面，所有数据集、详细论文及官方评测代码均在此公开提供。
下载数据集：获取完整的2800张图像数据集，其中七大字体均衡分布，各占400张，并下载配套的JSON或XML格式详细标注文件。
理解数据格式：关键在于深入理解其“阶段自适应标注”规范。古文字阶段（甲骨文/金文/篆书）的标注包含单字边界框坐标和对应的现代汉字；成熟字体阶段（隶/楷/行/草）则侧重于序列级文本布局与阅读顺序信息。
选择评测任务：根据您的研究重点，从四大核心任务（跨时期字符定位、细粒度古文字识别、古文本解析、字体分类）中选择一个或多个进行模型评估。
准备被测模型：部署好您待评测的视觉大语言模型或OCR模型，确保其具备图像输入和文本/坐标输出的基本能力。
执行模型推理：将数据集的图像输入您的模型，并按照所选任务的要求，让模型输出相应的预测结果，如字符边界框坐标、识别出的现代汉字、或判断的字体类别等。
运行评测脚本：使用项目仓库提供的官方评估代码，将您的模型输出与标准标注文件进行自动比对，计算各项任务的精确性能指标，如定位准确率、归一化编辑距离、分类准确率等。
分析评测结果：将您模型的评测结果与基准论文中已公布的SOTA模型数据进行横向对比，深入分析其在古文字感知、历史文档布局理解和字体演化认知方面的优势与短板。
规范引用与反馈：若在学术论文或研究中使用了该基准，请按规定引用其发表论文。同时，欢迎通过GitHub Issues向开发团队反馈使用中遇到的问题或提出改进建议。

Chronicles-OCR的核心优势

与现有其他古籍OCR或汉字识别基准相比，Chronicles-OCR在多个维度上展现了其不可替代的独特价值与优势：

业界首创跨时间评测体系：这是首个系统覆盖汉字“七体之变”完整演化轨迹的视觉感知基准，填补了从殷商到近现代长达三千年时间跨度的专项评测空白，视野宏大。
顶级学术机构联合背书：由顶尖企业AI实验室与多家国家级权威学术及文博机构共同打造，从数据源头到标注质量均经过严格的学术把关，公信力与可信度极高。
首创阶段自适应标注范式：深刻认识到不同历史阶段字体形态与书写规则的剧变，摒弃单一标注策略，采用差异化处理，使评估维度更精准，更符合文字演化的客观历史规律。
深度揭示模型能力边界：它不仅是一个测试工具，更是一份详细的诊断报告。基准结果系统性地揭示了当前主流VLLMs在古文字细粒度识别与跨时代泛化上的严重不足，为后续模型优化提供了明确、具体的技术攻关方向。
权威数据源与专家级标注：数据源头专业、纯净，标注过程由领域专家深度参与并校验，这种“高保真”数据是进行可靠、可复现学术研究的坚实基础。
视觉指代解耦评估机制：通过彩色框视觉指代这一巧妙设计，将“字形识别能力”和“视觉定位能力”两个关键问题分离评估，使得对模型短板的诊断更加精细化与可解释。
完全开源可复现：相关论文、数据集与评测代码全面开源，极大便利了全球学术界的复现验证、公平对比以及在此基础上的拓展研究，有力推动了该领域的开放协作与技术进步。

Chronicles-OCR的同类竞品对比

为了更清晰地定位Chronicles-OCR的独特之处，我们将其与古籍OCR及汉字识别领域的其他知名评测基准进行横向对比：

对比维度	Chronicles-OCR	AncientDoc	ACCID
发布机构	腾讯混元、中科院信工所、安阳师范学院、南开大学、故宫博物院	字节跳动、北京交通大学等	学术研究机构（论文未明确单一机构）
数据集规模	2,800张严格平衡图像，七体各400张	约3,000页古籍图像，来自100+部古籍	2,892字符类别图像，含部首级标注
覆盖内容	七大字体：甲骨文、金文、篆书、隶书、楷书、行书、草书	14类古籍文档（经史子集、医学、天文历算等）	古代汉字图像（侧重部首结构）
时间跨度	约三千年（殷商至近现代）	战国秦汉至明清	古代汉字（未明确分期）
评测任务	跨时期字符定位、细粒度古文字识别、古文本解析、字体分类	页面级OCR、白话翻译、推理QA、知识QA等	零样本字符识别、部首识别
标注粒度	阶段自适应：古文字单字级边界框+现代汉字映射；成熟字体序列级布局	页面级文本、问答对、翻译对	字符级 + 部首级（含坐标、结构）
目标模型	视觉大语言模型（VLLMs）	视觉语言模型（VLMs）	零样本OCR / 深度学习模型
核心创新	首创跨时间汉字演化评测、阶段自适应标注范式、视觉指代解耦评估	首个古籍多任务评测基准，从OCR延伸至知识推理	首创部首级精细标注，支持零样本学习

通过对比可以清晰看出，Chronicles-OCR的核心特色在于其贯穿三千年的纵向字体演化视角和对视觉大语言模型（VLLM）的专项深度评测；而AncientDoc更侧重于古籍文档的多任务理解与知识挖掘，ACCID则聚焦于汉字部首结构的细粒度分析与零样本学习。三者定位互补，共同构成了推动古文数字化与智能识别前沿研究的重要基石。

Chronicles-OCR的应用场景

这样一个专业、严谨的评测基准，其最终价值将落地于广泛而深远的实际应用场景中：

古文字智能识别与考释：直接辅助甲骨文、金文等尚未完全破译的古文字的自动化识别、比对与专家校验工作，有望显著降低古文字学研究的门槛，提升考释与研究效率。
大规模古籍数字化工程：为历代书法碑帖、珍贵文献、历史档案的高精度OCR识别与结构化信息解析提供权威的评测标准和模型优化方向，是推动中华文化遗产系统性数字化存档与活化利用的关键技术支撑。
字体与书法演化研究：为文字学、历史学和艺术史研究提供创新的量化分析工具。利用AI模型可大规模分析汉字从象形到表意、从篆隶到行草的形态演变规律，支撑跨学科的深度学术研究。
VLLM能力标准化评测：作为一项标准化基准，为全球学术界和工业界评测、对比不同视觉大语言模型在跨时代、跨字体视觉感知方面的能力、鲁棒性与泛化性提供了统一的“度量衡”和“试金石”。
文物铭文与文献信息提取：可应用于青铜器铭文、战国竹简、汉代帛书、敦煌写卷等珍贵文物图像的现场或后期文字信息智能提取，为考古研究、文物鉴定与历史复原提供强有力的智能辅助工具。
教育科普与文化传播：其直观的图像识别与古今字体对比功能，可广泛应用于汉字文化教学、博物馆互动展示、文化类APP开发中，生动演示古文字识别与字体演变过程，极大增强公众对汉字历史与中华文化的认知与兴趣。