当前位置: 首页
AI
DeepSeek-OCR 3B小模型突破长文本压缩,光学识别效率提升

DeepSeek-OCR 3B小模型突破长文本压缩,光学识别效率提升

热心网友 时间:2025-10-21
转载

近日,人工智能领域迎来一项突破性进展——DeepSeek团队正式开源其63B参数规模的OCR模型DeepSeek-OCR。这款模型通过创新性的"光学压缩"技术,在保持高识别精度的同时,将文本处理所需的计算资源大幅降低,为长文本处理开辟了全新路径。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

传统大语言模型在处理长文本时面临计算复杂度呈平方级增长的困境,序列长度每增加一倍,算力消耗便增长四倍。DeepSeek团队独辟蹊径,提出将文本信息转化为视觉形态进行处理的方案。通过光学压缩技术,模型能够将1000个文本Token的内容压缩为100个视觉Token,在保持97%以上OCR准确率的前提下,实现10倍压缩率。即便将压缩率提升至20倍,准确率仍能维持在60%左右。

在基准测试中,该模型展现出惊人效率:仅需100个视觉Token即可超越GOT-OCR2.0(每页256个Token)的性能;使用不超过800个视觉Token时,其表现已优于MinerU2.0(平均每页超6000个Token)。在实际生产环境中,单块A100-40G显卡每日可生成超20万页训练数据,20个节点组成的集群每日处理量可达3300万页。

模型架构由两大核心组件构成:DeepEncoder负责图像特征提取与压缩,DeepSeek3B-MoE解码器则完成视觉Token到文本的重建。其中DeepEncoder的创新设计尤为突出,通过串联SAM-base(8000万参数)与CLIP-large(3亿参数)模型,结合16×卷积压缩器,在保证高分辨率处理能力的同时,将激活内存开销控制在合理范围。该编码器支持512×512至1280×1280的多分辨率输入,涵盖Tiny(64+Token)到Large(400+Token)四种原生模式及动态Gundam模式。

解码器采用的MoE架构实现参数效率与模型能力的平衡。64个专家模块中激活6个,搭配2个共享专家,实际激活参数约5.7亿。这种设计使模型既具备30亿参数模型的表达能力,又保持5亿参数模型的推理效率。训练数据方面,团队构建了包含3000万页多语言PDF的庞大语料库,其中中英文数据达2500万页,覆盖约100种语言。

数据标注采用粗细结合的策略:粗标注数据通过fitz工具直接从PDF提取,用于基础语言识别训练;精标注数据则借助PP-DocLayout等模型生成,包含版面分析与文本识别的复合标注。针对小语种数据,团队开发"模型飞轮"机制,通过迭代标注将初始数据量扩展至60万条。300万条Word文档数据专门用于提升公式识别与表格解析能力,场景OCR数据集则包含中英文各1000万条样本。

该模型的创新不仅限于效率提升,其深度解析能力在STEM领域展现巨大潜力。通过统一提示词,模型可实现多种复杂图像的结构化提取:金融报告中的图表可转换为结构化数据,化学结构式自动转为SMILES格式,几何图形完成复制与结构化解析,自然图像生成密集描述。这种能力在化学、物理、数学等需要处理符号与图形的学科中具有重要应用价值。

研究团队提出更具前瞻性的设想——利用光学压缩模拟人类遗忘机制。通过将历史对话内容渲染为图像并逐级压缩,实现内容清晰度随时间自然衰减的效果。这种设计使近期上下文保持高分辨率,历史上文占用更少资源,理论上可支持"无限上下文"处理。虽然该方向仍处于早期研究阶段,但已展现出突破长文本处理瓶颈的可能性。

目前,DeepSeek-OCR的完整代码、论文及预训练模型已通过GitHub与HuggingFace平台开源。项目地址:http://github.com/deepseek -ai/DeepSeek-OCR;论文链接:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf;模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR。这项研究为视觉语言模型与大语言模型的融合发展提供了全新思路,证明通过模态转换实现计算效率优化的可行性。

来源:https://www.itbear.com.cn/html/2025-10/993031.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Lemonaid-AI音乐生成工具

Lemonaid-AI音乐生成工具

Lemonaid是什么 如果你正为音乐创作寻找得力助手,那么Lemonaid很可能就是答案。它是一款专门面向专业音乐人打造的AI音乐生成工具,核心能力在于自主生成包含完整旋律、和声与节奏的乐曲。无论是想要一段氛围感十足的背景音乐,还是为具体场景定制配乐,它都能提供高度逼真且质量上乘的作品。工具提供了

时间:2026-04-14 22:59
腾讯智影-智能视频创作与发布一体化平台

腾讯智影-智能视频创作与发布一体化平台

产品介绍 提到云端智能视频创作,腾讯智影是一个绕不开的名字。这款由腾讯推出的平台,本质上是一个一站式的在线视频工厂,集成了从素材挖掘、剪辑、渲染到最终发布的全链路功能,旨在为用户提供全方位的视频创作解决方案。更吸引人的是,它不仅免费开放,还深度整合了多项前沿AI技术,目标很明确:让视频化表达这件事,

时间:2026-04-14 22:58
豆包官网-字节跳动推出的免费AI智能助手

豆包官网-字节跳动推出的免费AI智能助手

豆包是什么? 咱们今天聊的“豆包”,可不是吃的那个点心,而是字节跳动新近推出的一款免费AI对话工具。简单来说,它就像一个随时在线的智能伙伴,既能跟你聊天答疑,也能根据你的想法创作文字、生成图片,主打一个用智能化服务来提升日常互动的效率和乐趣。 为了方便大家随时随地使用,豆包提供了相当全面的入口:网页

时间:2026-04-14 22:55
极氪发力高端纯电市场:焕新7系与001五周年纪念版联袂上市

极氪发力高端纯电市场:焕新7系与001五周年纪念版联袂上市

极氪品牌迎来高光时刻:焕新7系与五周年纪念版同步登场 最近,极氪品牌动作频频,迎来了一个关键节点。旗下焕新极氪007与焕新极氪007GT双双推向市场;与此同时,为庆祝品牌成立五周年,极氪001五周年纪念版也开启了限量发售。这一系列组合拳,无疑是在高性能豪华纯电赛道上的又一次深度加码,旨在进一步夯实其

时间:2026-04-14 22:55
Grammarly-Grammarly是一款免费的ai写作辅助工具

Grammarly-Grammarly是一款免费的ai写作辅助工具

Grammarly:你的全能型AI写作伙伴 说到写作,从措辞语法到语气风格,是不是常常感觉心里没底?眼下,就有这么一款工具,已经成为全球数百万用户在沟通写作时的得力助手。没错,它就是Grammarly。这款免费的AI写作辅助工具,核心使命就是提升用户的写作技巧,并让大家在每一次沟通中都更有自信。 无

时间:2026-04-14 22:53
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程