当前位置: 首页
科技数码
DeepSeek-OCR视觉压缩突破:探索AGI发展的新路径

DeepSeek-OCR视觉压缩突破:探索AGI发展的新路径

热心网友 时间:2025-10-21
转载

近日,硅谷科技圈为一款来自中国的开源模型沸腾不已。这款名为DeepSeek-OCR的300亿参数模型,凭借“视觉压缩文本”的创新理念,在GitHub上线三天就斩获了3300颗星,HuggingFace热榜冲至次席,X平台更是掀起关于“AI的JPEG时刻”的热烈讨论。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这款被开发者戏称为“被名字耽误的革命性模型”,其核心突破在于重构了文本处理范式。研究团队发现,当文本token数与视觉token数的压缩比控制在10倍以内时,模型OCR解码准确率高达97%;即便压缩到20倍,仍能保持60%的准确度。这种“以图载文”的思路,恰似人类阅读时“扫一眼知全貌”的认知模式——通过单张图片承载数千文字信息,显著降低计算成本。

技术实现层面,模型采用双组件架构:编码器DeepEncoder负责将图像转化为高密度视觉token,解码器DeepSeek3B-MoE-A570M则从压缩token中重建文本。其中编码器的设计尤为精妙:先通过窗口注意力机制进行局部特征提取,再经16倍卷积压缩器削减token数量,最后由全局注意力模型完成深度理解。这种“局部-压缩-全局”的三段式处理,使1024x1024分辨率的图像token数从4096锐减至256。

实验数据显示,该模型在主流文档解析基准OmniDocBench上刷新纪录。仅用100个视觉token,性能即超越使用256个token的GOT-OCR2.0;400个token时与先前SOTA持平;不到800个token便大幅领先需要7000个token的MinerU2.0。更惊人的是其训练效率——单块A100-40G GPU每日可生成超过20万页优质训练数据,较传统方法提升数十倍。

技术突破背后是三位低调研究者的智慧结晶。主导开发者Haoran Wei曾主持第二代OCR系统GOT-OCR2.0研发,此次工作延续了端到端文档解析的技术路径。核心成员Yaofeng Sun深度参与DeepSeek R1、V3等明星模型开发,而拥有谷歌近万次学术引用的Yukun Li,则持续贡献于V2/V3系列模型优化。

研究团队提出的“光学压缩模拟遗忘机制”引发更深层思考。通过将近期记忆比作高分辨率图像(需要更多token保留细节),远期记忆类比为模糊图像(用少量token自然压缩),模型可动态分配计算资源。这种类脑设计使超长上下文处理成为可能——当对话或文档跨越漫长时间轴时,系统能像人类记忆般自动“淡忘”非关键信息,同时保持核心内容的精准度。

卡帕西等AI领域权威对“视觉优于文本输入”的设计给予高度评价,认为这打开了AI记忆架构的新路径。相较于传统模型对短期、中期、远期上下文“一视同仁”的处理方式,DeepSeek的解决方案更接近人类认知模式,有望解决长文本处理中的算力爆炸难题。

目前该模型已展现多领域解析能力,除常规文字识别外,还能深度解析金融报表、化学分子式、数学几何图及百余种语言文档。这种跨模态理解突破,正推动AI向更接近人类智能的方向演进。

来源:https://www.itbear.com.cn/html/2025-10/993801.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
重构游戏与视听体验 Vidda两大重磅新品正式亮相

重构游戏与视听体验 Vidda两大重磅新品正式亮相

超级玩家登场:Vidda大玩家G7与G11,如何重构娱乐体验新标准? 3月23日,北京双井京东MALL里挺热闹。海信旗下的年轻科技品牌Vidda,开了场名为“超级玩家”的新品发布会。这场发布会的重量级选手有两个:一个是专为3A大作定制的G+Mini LED巨幕游戏电视“大玩家G7”,另一个则是Vid

时间:2026-04-23 06:34
消息称某厂下一代超大杯机型或搭载 LOFIC 长焦、三颗 2 亿像素镜头,预计为小米 18 Ultra

消息称某厂下一代超大杯机型或搭载 LOFIC 长焦、三颗 2 亿像素镜头,预计为小米 18 Ultra

消息称某厂下一代超大杯机型或搭载 LOFIC 长焦、三颗 2 亿像素镜头,预计为小米 18 Ultra 一个颇有看点的前瞻消息来了。3月28日,知名博主 @数码闲聊站 在微博上放出了一些关于下一代“超大杯”旗舰手机的模糊线索,原文是这么说的: 一个超前瞻,下一代超大杯 ‘可能’ 会有 LOFIC 长

时间:2026-04-23 06:33
9月发布12月发货 iPhone Fold复刻iPhone X

9月发布12月发货 iPhone Fold复刻iPhone X

苹果首款折叠屏iPhone Fold定档9月,但发货要等三个月? 供应链近期传出的消息,让折叠屏市场的风向又起了变化。根据多家机构分析师的披露,苹果的首款折叠屏手机 iPhone Fold 已确定将在今年9月,与 iPhone 18 Pro 系列一同登台亮相。不过,想第一时间拿到真机的用户恐怕要有点

时间:2026-04-23 06:32
迈从 Ace 68 GT :赛事级全铝磁轴新体验

迈从 Ace 68 GT :赛事级全铝磁轴新体验

迈从Ace 68 GT磁轴键盘发布:用“六边形”实力,重构赛事级外设质价比标杆 3月2日,迈从打出了一张王炸牌——正式推出其2026年度旗舰赛事级全铝磁轴键盘Ace 68 GT。这可不是一次简单的产品迭代。一个直击电竞玩家痛点的精准定位,加上性能、手感、设计与质感几乎没有短板的全能表现,让它一经亮相

时间:2026-04-23 06:32
华硕新TUF Gaming系列游戏本,包括A16/F16/A18三款机型

华硕新TUF Gaming系列游戏本,包括A16/F16/A18三款机型

华硕发布新一代TUF Gaming游戏本:RTX 50系显卡上车,首推18英寸大屏 3月18日,华硕正式揭晓了新一代TUF Gaming系列游戏本,阵容包括基于AMD平台的A16、基于英特尔平台的F16,以及该系列首次亮相的18英寸机型A18。这次更新的核心看点非常明确:全系拥抱新一代RTX 50系

时间:2026-04-23 06:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程