当前位置: 首页
科技数码
DeepSeek开源3B模型DeepSeek-OCR:用光学压缩探索文本处理新路径

DeepSeek开源3B模型DeepSeek-OCR:用光学压缩探索文本处理新路径

热心网友 时间:2025-10-21
转载

DeepSeek团队近日开源了一款名为DeepSeek-OCR的300亿参数模型,通过创新的“光学压缩”技术,在保持高准确率的同时大幅降低了文本处理所需的计算资源。该模型将视觉模态引入文本信息处理领域,为解决大语言模型(LLM)处理长文本时的计算瓶颈提供了全新思路。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

传统LLM在处理长文本时面临计算复杂度呈平方级增长的难题——序列长度每增加一倍,算力消耗将呈现四倍增长。DeepSeek-OCR的突破性在于将文本转换为图像进行压缩处理:通过视觉模态的“光学压缩”,模型用更少的视觉Token承载相同信息量。实验数据显示,该技术可实现7-20倍的Token压缩率,在10倍压缩下OCR准确率超过97%,即使压缩20倍仍能保持60%以上的准确率。

模型架构由编码器DeepEncoder和解码器DeepSeek3B-MoE组成。DeepEncoder采用SAM-base(8000万参数)与CLIP-large(30亿参数)的串联结构,前者负责局部特征提取,后者进行全局信息整合。中间嵌入的16×卷积压缩器可将输入图像的Token数量大幅削减,例如1024×1024图像经处理后,进入全局注意力层的Token从4096个降至数百个。这种设计使模型既能处理高分辨率输入(支持512×512至1280×1280多分辨率),又有效控制了内存开销。

解码器部分采用混合专家(MoE)架构,64个专家中激活6个,配合2个共享专家,实际激活参数约5.7亿。这种设计使300亿参数规模的模型兼具3000亿参数模型的表达能力与500亿参数模型的推理效率。在OmniDocBench基准测试中,使用100个视觉Token的DeepSeek-OCR表现优于GOT-OCR2.0(每页256个Token),使用800个Token时则超越MinerU2.0(平均每页超6000个Token)。

数据构建方面,团队从互联网收集了3000万页多语言PDF文档(中英文占2500万页),通过粗标注(fitz提取)和精标注(PP-DocLayout等模型生成)结合的方式构建训练集。针对小语种数据,创新采用“模型飞轮”机制:先用版面分析模型检测文本区域,再用生成的数据训练GOT-OCR2.0,最后用训练好的模型标注更多数据,形成数据生成闭环。模型还整合了300万条Word文档数据以提升公式识别能力,以及2000万条场景OCR数据(中英文各半)增强自然图像解析能力。

该模型不仅具备基础OCR功能,更实现了对复杂图像的结构化解析。通过统一提示词,可自动提取金融图表数据、转换化学结构式为SMILES格式、解析几何图形并生成密集描述。在STEM领域(如化学、物理、数学),这种能力可显著提升符号和图形密集型场景的处理效率。

研究团队还提出了一个颇具前瞻性的设想:通过光学压缩模拟人类遗忘机制。具体方案是将历史对话内容渲染为图像,通过逐步压缩图像尺寸实现信息模糊化——近期内容保持高分辨率,久远内容自然淡化。这种设计理论上可支撑“无限上下文”处理,使模型在保持近期上下文高保真的同时,降低历史上下文的计算资源占用。

目前,DeepSeek-OCR已开源原生分辨率的Tiny(64 Token)、Small、Base、Large四档模式,以及动态分辨率的Gundam模式。在实际生产环境中,单张A100-40G显卡每日可生成超20万页训练数据,20个节点(160块A100)的集群日处理量可达3300万页。团队强调,当前成果仅是起点,后续将开展数字-光学文本交替预训练、“大海捞针”测试等系统性研究,以全面验证光学压缩技术在上文处理中的潜力。

来源:https://www.itbear.com.cn/html/2025-10/994075.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI能从单份血样检出多种神经疾病

AI能从单份血样检出多种神经疾病

来源:科技日报科技日报讯 (记者刘霞)由瑞典隆德大学领衔的国际研究团队,研发出一款新的人工智能(AI)模型。该模型仅需一份血液样本,便能精准识别多种神经退行性疾病。团队期望,该AI模型未来能实现“一

时间:2026-04-07 14:55
褪去虚火,脑机接口方能释放长远价值

褪去虚火,脑机接口方能释放长远价值

来源:科技日报2026年开年,马斯克宣称脑机接口产品将于年内启动量产,引爆全球市场情绪。国内资本随即扎堆追捧,脑机接口相关概念股大幅走高,行业短期炒作虚火蔓延。进入3月,脑机接口迎来多重利好:脑机接

时间:2026-04-07 14:55
黎万强、洪锋退出小米科技股东名单

黎万强、洪锋退出小米科技股东名单

人民财讯4月7日电,企查查APP显示,近日,小米科技有限责任公司发生工商变更,原股东小米联合创始人黎万强、洪锋退出,同时,注册资本由18 5亿元减至约14 8亿元。 企查查信息显示,该公司成立于20

时间:2026-04-07 14:55
新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

  新华社北京4月7日电 新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月  新华社记者张晓茹  美国东部时间6日18时40分许(北京时间7日6时40分许),执行美国“阿耳忒弥斯2号”载人绕月飞行任

时间:2026-04-07 14:55
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用

时间:2026-04-07 14:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程