当前位置: 首页
AI
DeepSeek-OCR长文本理解分析,中科院新基准揭示技术方向

DeepSeek-OCR长文本理解分析,中科院新基准揭示技术方向

热心网友 时间:2026-01-05
转载


新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)技术,能够通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。然而,视觉语言模型能否真正理解压缩后的高密度信息?中国科学院自动化所等机构推出了VTCBench基准测试,旨在评估模型在视觉空间中的认知极限,涵盖了信息检索、关联推理和长期记忆三大核心任务。

近期,凭借其创新的“视觉文本压缩”(Vision-Text Compression,VTC)范式,DeepSeek-OCR引发了技术圈的广泛关注。这一范式以极少的视觉Token便实现了高效的文本信息编码,为长文本处理开辟了全新的技术路径。

这一突破性进展让大模型处理超长文档的成本大幅降低,但同时也引出了一个深层次的疑问:当长文本被高度压缩为二维图像后,视觉语言模型(VLM)真的能准确理解其中蕴含的内容吗?

为了探究这一问题,来自中国科学院自动化所、中国香港科学院创新研究院等机构的研究团队,联合推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。


论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench


图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与传统的纯文本处理方式不同,VTC范式(如DeepSeek-OCR)会先将长文档渲染(Rendering)为高密度的二维图像,再由视觉编码器将其转化为少量的视觉Token。这一技术能实现2到10倍的Token压缩率,显著降低了长文本处理时的计算与显存开销。

目前,VTCBench已在GitHub和Huggingface全面开源。其衍生版本VTCBench-Wild作为一个统一的、全方位评估模型在复杂现实场景下视觉文本压缩鲁棒性的工具,现已集成到VLMevalkit中。

核心使命

衡量“看得见”之后的“看得懂”

当前的VLM或许能出色地完成OCR识别任务,但在处理经过VTC压缩后的高密度信息时,其对长文本的深度理解能力仍有待验证。

VTCBench通过三大任务,系统性评估模型在视觉空间中的认知极限:

1. VTC-Retrieval (信息检索):在视觉“大海”中精准寻找特定事实的“针”(Needle-in-a-Haystack),检验模型对空间分布信息的捕捉能力。

2. VTC-Reasoning (关联推理):挑战模型在几乎没有文本重叠的情况下,通过上下文关联推理寻找事实,超越简单的词汇索引。

3. VTC-Memory (长期记忆):模拟超长对话场景,评估模型在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

此外,团队同步推出了VTCBench-Wild,引入了99种不同的渲染配置(涵盖多种字体、字号、行高及背景),全方位检测模型在复杂现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈


图 2:VTCBench针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实(Needle)在文档中的深度。展现了模型表现的“迷失”与“突破”。

测试结果呈现出显著的“U型曲线”现象:与纯文本模型类似,视觉语言模型(VLM)能够精准捕捉开头和结尾的信息,但对于中间部分的事实,其理解能力会随着文档变长而剧烈衰退。这证明即使在视觉空间,模型依然存在严重的“空间注意力偏见”,这将是未来VTC架构优化需要攻克的关键方向。

行业洞察

视觉压缩是长文本的终极答案吗?


通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等十余种顶尖模型的深度评测,我们可以发现:

尽管VTC极大提升了效率,但现有VLM在复杂推理和记忆任务上的表现仍普遍弱于纯文本大模型;

消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度;

Gemini-3-Pro在VTCBench-Wild上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了VTC是实现大规模长文本处理的极其可行的路径!

总结


如果说传统的长文本处理是“逐字阅读”,那么DeepSeek-OCR所引领的VTC范式便是“过目成诵”式的摄影记忆。VTCBench的出现,正是为了确保模型在拥有这种“超能力”的同时,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

来源:https://www.163.com/dy/article/KIGUVK3L0511ABV6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
阿里钉钉文档全功能解析在线协同办公套件使用指南

阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流

时间:2026-05-15 23:00
商汤小浣熊智能助手基于自研大语言模型

商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办

时间:2026-05-15 22:59
MiniMax新一代智能模型矩阵全面解析与应用指南

MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M

时间:2026-05-15 22:59
智能客服机器人解决方案:AI客服系统提升企业服务效率

智能客服机器人解决方案:AI客服系统提升企业服务效率

在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练

时间:2026-05-15 22:59
开源企业答疑工具Danswer:高效解决团队知识管理难题

开源企业答疑工具Danswer:高效解决团队知识管理难题

Danswer 是一款专为企业设计的开源智能问答平台,支持用户使用自然语言直接提问,并能够从公司内部文档、知识库等私有数据源中快速检索,提供带有精准来源引用的可靠答案。 核心功能:它如何解答问题? Danswer 的核心价值在于实现了“智能问答”。用户无需再花费大量时间手动搜索和翻阅各类文件,只需像

时间:2026-05-15 22:59
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程