首页
科技
DeepSeek-OCR视觉压缩突破:探索AGI发展的新路径

DeepSeek-OCR视觉压缩突破:探索AGI发展的新路径

热心网友
转载
2025-10-21
来源:https://www.itbear.com.cn/html/2025-10/993801.html

近日,硅谷科技圈为一款来自中国的开源模型沸腾不已。这款名为DeepSeek-OCR的300亿参数模型,凭借“视觉压缩文本”的创新理念,在GitHub上线三天就斩获了3300颗星,HuggingFace热榜冲至次席,X平台更是掀起关于“AI的JPEG时刻”的热烈讨论。

这款被开发者戏称为“被名字耽误的革命性模型”,其核心突破在于重构了文本处理范式。研究团队发现,当文本token数与视觉token数的压缩比控制在10倍以内时,模型OCR解码准确率高达97%;即便压缩到20倍,仍能保持60%的准确度。这种“以图载文”的思路,恰似人类阅读时“扫一眼知全貌”的认知模式——通过单张图片承载数千文字信息,显著降低计算成本。

技术实现层面,模型采用双组件架构:编码器DeepEncoder负责将图像转化为高密度视觉token,解码器DeepSeek3B-MoE-A570M则从压缩token中重建文本。其中编码器的设计尤为精妙:先通过窗口注意力机制进行局部特征提取,再经16倍卷积压缩器削减token数量,最后由全局注意力模型完成深度理解。这种“局部-压缩-全局”的三段式处理,使1024x1024分辨率的图像token数从4096锐减至256。

实验数据显示,该模型在主流文档解析基准OmniDocBench上刷新纪录。仅用100个视觉token,性能即超越使用256个token的GOT-OCR2.0;400个token时与先前SOTA持平;不到800个token便大幅领先需要7000个token的MinerU2.0。更惊人的是其训练效率——单块A100-40G GPU每日可生成超过20万页优质训练数据,较传统方法提升数十倍。

技术突破背后是三位低调研究者的智慧结晶。主导开发者Haoran Wei曾主持第二代OCR系统GOT-OCR2.0研发,此次工作延续了端到端文档解析的技术路径。核心成员Yaofeng Sun深度参与DeepSeek R1、V3等明星模型开发,而拥有谷歌近万次学术引用的Yukun Li,则持续贡献于V2/V3系列模型优化。

研究团队提出的“光学压缩模拟遗忘机制”引发更深层思考。通过将近期记忆比作高分辨率图像(需要更多token保留细节),远期记忆类比为模糊图像(用少量token自然压缩),模型可动态分配计算资源。这种类脑设计使超长上下文处理成为可能——当对话或文档跨越漫长时间轴时,系统能像人类记忆般自动“淡忘”非关键信息,同时保持核心内容的精准度。

卡帕西等AI领域权威对“视觉优于文本输入”的设计给予高度评价,认为这打开了AI记忆架构的新路径。相较于传统模型对短期、中期、远期上下文“一视同仁”的处理方式,DeepSeek的解决方案更接近人类认知模式,有望解决长文本处理中的算力爆炸难题。

目前该模型已展现多领域解析能力,除常规文字识别外,还能深度解析金融报表、化学分子式、数学几何图及百余种语言文档。这种跨模态理解突破,正推动AI向更接近人类智能的方向演进。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

2025年Q3全球PC出货增长6.8% 联想反超苹果夺冠

2025年第三季度,全球台式机、笔记本及工作站总出货量达7200万台,较去年同期增长6 8%。这一增长主要得益于设备更新需求的持续释放,尤其是随着Windows 10服务终止期限临近,企业和个人用户

2025-10-22.

小岛工作室官宣《死亡搁浅2》免费中文配音版已上线

10月21日,小岛工作室通过最新微博发布消息,在当日举行的PlayStation中国直播分享会上,小岛秀夫亲自揭晓死亡搁浅 2:冥滩之上将推出最新中文配音,并宣布该配音补丁将于10月22日0时以免费

2025-10-22.

法国卢浮宫8件稀世藏品被盗,意大利紧急升级58亿安防系统

10月22日消息,10月19日,四名蒙面人利用升降装置闯入卢浮宫,抢走数件价值连城的王室珠宝,举世震惊。受此事刺激,意大利文化部次日宣布,正在研发基于人工智能的安防系统,可识别珍贵文物附近的异常行为

2025-10-22.

深蓝L06首发3nm天玑S1+Ultra芯片:安兔兔跑分超163万

深蓝汽车于今日宣布,其全新车型深蓝L06所搭载的天玑3nm座舱芯片——天玑座舱S1 Ultra,在安兔兔车机版性能测试中取得1637481分的成绩,位居排行榜首位,领先第二名达33%,最新称之为具备

2025-10-22.

小鹏汽车新总部启用:全新战略提速,开启发展新阶段

2025年10月21日,小鹏汽车宣布其新总部在广州正式启用。公司表示,此次乔迁标志着一个全新的起点,也开启了企业发展的新征程。小鹏汽车董事长何小鹏在前一天透露了这一消息。他表示,新总部园区总面积接近

2025-10-22.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
指挥前线
指挥前线 棋牌策略 2025-10-22更新
查看
点灯
点灯 休闲益智 2025-10-22更新
查看
童话镇公主游戏
童话镇公主游戏 角色扮演 2025-10-22更新
查看
天地劫幽城再临紫龙
天地劫幽城再临紫龙 角色扮演 2025-10-22更新
查看
超普通修仙模拟器游戏
超普通修仙模拟器游戏 角色扮演 2025-10-22更新
查看
猛鬼宿舍内置mod菜单
猛鬼宿舍内置mod菜单 棋牌策略 2025-10-22更新
查看
天下布魔无限调解
天下布魔无限调解 角色扮演 2025-10-22更新
查看
天地劫幽城再临bilibili服
天地劫幽城再临bilibili服 角色扮演 2025-10-22更新
查看
魔法战线
魔法战线 角色扮演 2025-10-22更新
查看
口袋山海经手游
口袋山海经手游 棋牌策略 2025-10-22更新
查看