当前位置: 首页
科技数码
DeepSeek新功能上线:AI再进化,“王炸”能力全解析

DeepSeek新功能上线:AI再进化,“王炸”能力全解析

热心网友 时间:2025-12-05
转载

AI领域最近又有了新突破——DeepSeek团队悄然开源了一个参数规模达300亿的小型模型,命名为DeepSeek-OCR。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

别看它体量不大,设计理念却相当炸裂:他们竟打算让人工智能通过"看图"的方式去理解文本内容。

没错,这是真正的"以图识字"。

不仅如此,这不仅仅是简单的文字识别,而是将"视觉模态"作为一种文本压缩媒介,用图像来代表文字,以"视觉token"替代"文本token",实现所谓的光学压缩(Optical Compression)。

说实话,当我初次看到这篇论文时,第一反应是:难道他们想让语言模型也去上美术课?

不过静心思考后,这个思路确实有其合理之处。

大语言模型(LLM)最突出的痛点是什么?处理长文本时算力消耗巨大。

众所周知,大型模型的注意力机制复杂度呈平方级增长。输入长度翻倍,其计算量就要增加四倍;若要让它记住整篇长文档,模型立刻就会"高负荷运转"。

那么,能否换个思路解决问题?DeepSeek团队提出:既然一张图片能承载大量文字信息,不如直接将文本转化为图像,再让模型去"读图"!

论文中展示了一个特别直观的案例:原本需要1000个token才能表达的内容,现在仅用100个视觉token就能搞定,压缩率达到10倍,同时还能保持97%的OCR准确率。

即便进行20倍极限压缩,仍能维持约60%的准确度。这意味着,模型"读图"的效率竟然比"读文字"还高。

换句话说,模型在几乎不丢失关键信息的前提下,计算负担减轻了十倍。

不少网友看到这里都感到惊讶:AI处理图像的资源消耗竟然比处理长文本还少?这完全颠覆了人类的直觉认知!

也有网友感叹道:DeepSeek这是要让模型"读文档"像刷朋友圈一样轻松。

在我看来,这套操作堪称"降维打击"。

过去我们一直在想办法让模型更懂文字、看得更远;而DeepSeek却反其道而行:让模型把文字变成画,再通过"看画识文"来理解内容。这有点像回到了人类最原始的沟通方式:象形文字。

说到这里,让我们深入了解这个模型的具体构成。DeepSeek-OCR由两部分组成:DeepEncoder(图像压缩模块)+DeepSeek3B-MoE(解码还原模块)。

前者是整个系统的"压缩引擎",它巧妙地将两大视觉强者SAM-base和CLIP-large串联起来:

SAM负责捕捉细节的"局部注意力",CLIP则把握整体的"全局注意力"。中间还嵌入了一个16倍卷积压缩模块,专门用于削减token数量。

举例来说,一张1024×1024的图像,理论上需要切割成4096个区块进行处理,现在经过这个压缩模块的优化,直接缩减为几百个token。

经过这样的处理,既保留了足够的清晰度,又大幅降低了计算开销。

而且它还支持多分辨率模式:Tiny、Small、Base、Large,还有一个命名为"Gundam(高达)"的动态模式。

你没看错,这个模型连命名都带着点"二次元"风格。

解码器部分则是DeepSeek的拿手好戏:MoE(混合专家)架构。

64个专家中每次只激活6个,外加两个共享专家,实际算力仅动用了约5.7亿参数,但性能却媲美300亿模型。又快又省电,堪称"节能灯中的战斗机"。

它的任务也并不复杂:从那些压缩后的视觉token中,将文字信息"解码"还原。

整个过程就像是OCR的升级版——不过这次是模型自己在"看图猜字",而非人类教它识字,而且猜得相当准确。

当然,要让这套玩法真正奏效,必须准备充足的训练素材。DeepSeek这次可谓下足了本钱:整整3000万页PDF文档,涵盖100多种语言,其中中英文就占了2500万页。

他们还构建了一个"模型飞轮":先用版面分析模型进行粗标注,再用GOT-OCR之类的模型做精标,训练一遍后再反馈更多数据。如此循环往复,模型通过自我喂养不断成长。

除此之外,还有300万条Word文档,专门用于训练公式识别、HTML表格提取,甚至包括金融图表、化学结构式、几何图形等特殊图像结构,也都被纳入了训练集中。

DeepSeek还从LAION、Wukong这些开源数据集抓取了中英文各1000万张场景图,用PaddleOCR进行标注。

可以说,这一轮训练真正实现了"从理工科到艺术科全覆盖",是用海量数据喂养出来的聪明模型。

那么实际效果如何?论文中展示了几组测试结果,表现相当亮眼。

在OmniDocBench测试集上,DeepSeek-OCR仅用100个视觉token就超越了GOT-OCR2.0(每页256token)。用不到800个视觉token,又超越了MinerU2.0(每页6000+token)。

性能更强、输入更短、推理更快。

这样的处理速度,简直如同"AI印刷机"。

不过,最让我拍案叫绝的,是论文最后那个脑洞:光学压缩还能模拟人类遗忘?

人脑的记忆会随时间衰退,旧事逐渐模糊,新事清晰如昨。DeepSeek团队于是琢磨:AI能不能也学会"选择性记忆"?

如果AI也能像人一样"选择性记忆",是不是就能在超长对话中运转得更轻松?

他们设计了一个实验构想:超过k轮的历史对话内容就直接渲染成图像;先压缩一遍,减少10倍token;再把图像尺寸缩小一些;图像越小,信息越模糊,最终就"遗忘"了。

有网友看完直接感叹:这不就是在模拟人脑的记忆机制嘛!

当然,也有人泼冷水:DeepSeek的想象力已经够惊人了,要是再让它学会"遗忘",恐怕忘得比人还快。

我看完这部分内容,确实觉得颇具哲学意味。AI的记忆,究竟该无限扩展,还是该学会适时遗忘?

DeepSeek给出的答案是后者——它通过视觉方式,让模型在"压缩"的同时,也"过滤"掉冗余信息。就像人脑那样:只保留有用的内容。

这背后的意义,其实比OCR技术本身更为深远。

它重新定义了"上下文"的概念:不是记得越多越好,而是记得越精越妙。

说到底,DeepSeek-OCR看似是个OCR模型,实则是在探索一种新范式:能否用视觉模态来高效承载语言信息?

在所有人都追求"更大、更长、更贵"的方向时,DeepSeek却反手做了个"更小、更快、更巧"的模型。

这件事本身就很有DeepSeek的风格。

最后我想说的是:AI的进化路径,未必总是做加法,有时候做减法反而更显智慧。

DeepSeek-OCR就是一个鲜活的例子:一个30亿参数的小模型,却玩出了长文本压缩的新思路,甚至触碰到了"记忆与遗忘"的边界。

如果说去年的关键词是"谁能记住更多",那么今年,或许是"谁能忘得更聪明"。

而DeepSeek,这一次又走在了前列。

来源:https://36kr.com/p/3523037701840002

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2026北京车展:长城魏牌携AI旗舰与归元平台 开启豪华汽车新征程

2026北京车展:长城魏牌携AI旗舰与归元平台 开启豪华汽车新征程

在第十九届北京国际汽车展览会上,长城汽车旗下高端品牌魏牌以强大阵容亮相 这次北京车展,魏牌的展台绝对算得上一个焦点。他们不仅带来了备受瞩目的“AI豪华六座旗舰”魏牌V9X,还首次展示了号称“世界级豪华平台”的归元S平台。再加上全新高山、全新蓝山以及新摩卡Hi4 Max版等一系列研发成果,阵容可谓相当

时间:2026-04-29 22:43
华硕ROG DAY 2026广州站5月15日举行,包含新品发布会

华硕ROG DAY 2026广州站5月15日举行,包含新品发布会

ROG DAY 2026 广州站定档 5 月 15 日,新品发布与玩家狂欢同日开启 玩家们期待已久的年度盛宴来了。华硕旗下高端电竞品牌 ROG(玩家国度)正式官宣,ROG DAY 2026 广州站活动,将于 5 月 15 日在广州市流花展贸中心的大麦 66 livehouse 拉开帷幕。 从官方公布

时间:2026-04-29 21:08
国家信誉与短期逐利孰重孰轻?从苹果天价罚单看印度的战略投机

国家信誉与短期逐利孰重孰轻?从苹果天价罚单看印度的战略投机

国家信誉与短期逐利孰重孰轻?从苹果天价罚单看印度的战略投机 近日,印度竞争委员会(CCI)的一纸拟议罚单,在全球科技界投下了一枚重磅冲击波。高达380亿美元的处罚金额,不仅相当于苹果全球服务业务年均营收的10%,创下印度反垄断的历史纪录,其严厉程度在全球监管实践中也极为罕见。消息传出,国际商界一片哗

时间:2026-04-29 21:07
21对话|陪小米智驾长到十八岁

21对话|陪小米智驾长到十八岁

21对话|陪小米智驾长到十八岁 21世纪经济报道记者 何煦阳 2026年3月,小米新一代SU7正式亮相。这次升级,硬件层面自然不必多说,软件架构更是迈入了“XLA”认知大模型的新阶段。这套系统究竟是怎么炼成的?背后又有哪些过人之处?4月,《21汽车·一见Auto》记者何煦阳与小米智能驾驶基座模型负责

时间:2026-04-29 21:07
千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

千问开源FlashQLA:为线性注意力算子注入“硬核”效率 近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升

时间:2026-04-29 21:07
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程