首页
AI
DeepSeek新模型突破:以视觉压缩文本实现小参数高性能

DeepSeek新模型突破:以视觉压缩文本实现小参数高性能

热心网友
转载
2025-10-21
来源:https://www.itbear.com.cn/html/2025-10/993722.html

最近,一款名为DeepSeek-OCR的开源模型在科技界引起了广泛关注。凭借其独特的技术路径与高效表现,该模型被硅谷多位专家誉为人工智能领域的突破性成果。这款由DeepSeek团队推出的模型,通过"视觉压缩文本"的创新思路,成功解决了大模型处理长文本时算力消耗过大的难题,甚至有观点认为它触及了谷歌Gemini等头部模型的"技术护城河"。

其核心突破在于"上下文光学压缩"机制。研究团队提出,既然单张图片能够承载数千字信息,是否可以通过视觉token压缩文本内容,让模型借助"看图"来理解信息?基于这一构想,他们构建了仅含3B参数的DeepSeek-OCR模型,在主流的文档解析基准OmniDocBench上取得了领先成绩。实验数据显示,该模型使用100个视觉token即可超越需要256个token的GOT-OCR2.0;当视觉token增至400个时,性能已与先前SOTA模型持平;而使用不超过800个token时,其表现远胜需要近7000个token的MinerU2.0。

技术实现依托两大核心组件:编码器DeepEncoder与解码器DeepSeek3B-MoE-A570M。前者采用"局部-压缩-全局"三级架构,先通过窗口注意力模型提取高分辨率图像的局部特征,再经16倍卷积压缩器大幅减少token数量,最后由全局注意力模型深度解析浓缩后的信息。这种设计使模型在保持高信息密度的同时,将计算开销控制在合理范围。更为关键的是,DeepEncoder支持从"Tiny"(512x512分辨率,64个token)到"Gundam"(动态分块,近800个token)的多种输入模式,可根据任务需求灵活调整压缩强度。

在实际性能验证中,模型展现出强大的文本解析能力。当压缩率小于10倍(文本token数为视觉token数的10倍以内)时,OCR解码准确率高达97%;即便压缩率达到20倍,准确率仍保持在60%左右。这种"以小博大"的效果,得益于视觉压缩对文本信息的高效表达——一张图片包含的token量远少于直接编码文本所需的量,却能完整保留语义信息。

技术开源后迅速引发行业热议。GitHub平台该模型已获3.3K星标,HuggingFace热度冲至榜单第二,X社交平台上专家评价持续不断。曾批评AI现状的卡帕西公开表示:"将图像作为LLM输入的思路非常巧妙,这确实是更高效的表达方式。"更有观点将其类比为"AI的JPEG时刻",认为这种视觉-文本压缩范式为AI记忆架构开辟了新路径。

研究团队进一步提出,该技术可模拟人类记忆的"遗忘机制"。通过将近期记忆渲染为高分辨率图像(用更多token保留细节),远期记忆压缩为低分辨率图像(用更少token表示模糊信息),模型能动态分配计算资源。这种设计使模型在处理超长对话或文档时,可像人类一样自然"遗忘"过期信息,从而构建无限长上下文架构。尽管目前该方向仍处早期研究阶段,但已为破解AI长文本处理中的计算资源暴涨问题提供了新思路。

除技术突破外,DeepSeek的高效研发风格同样引人注目。研究显示,其数据生成方法仅需一块A100-40G+GPU,每日即可产出超20万页优质LLM/VLM训练数据。这种低成本、高产出的模式,进一步降低了大模型研发的门槛。

目前,DeepSeek-OCR已支持对金融报表、化学分子式、数学几何图及100多种语言的复杂图像解析。其开源代码和模型权重可通过Hugging Face及GitHub平台获取,为全球开发者提供了研究基础。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

余承东:华为招聘顶级AI人才,共攀通用人工智能高峰

华为近日通过最新招聘渠道发布“全球顶尖AI人才招募计划”,旨在组建一支具备国际竞争力的AI研发团队,加速推进大模型技术创新,向通用人工智能(AGI)领域发起冲刺。公司常务董事、终端BG董事长余承东在

2025-10-21.

JEDEC发布SOCAMM2标准:为AI数据中心提供9600MT/s高速内存

JEDEC固态技术协会近日发布消息,面向数据中心AI应用场景的SOCAMM2小尺寸内存模块外形规范即将完成标准化进程,其对应的JESD328技术标准已进入最终审定阶段。这项基于LPDDR5X DRA

2025-10-21.

余承东诚邀AI青年才俊,华为广发人工智能招募令

华为近日正式启动“全球顶尖AI人才招募计划”,面向海内外高校广发英雄帖,旨在吸引一批具有创新潜力的年轻人才投身人工智能领域。此次招聘的覆盖范围十分广泛。国内高校方面,2026年1月1日至2026年1

2025-10-21.

2025上半年中国AI用户破5亿,高学历中青年成主力军

2025年10月18日,第六届中国互联网基础资源大会在北京召开。会上,中国互联网络信息中心正式发布《生成式人工智能应用发展报告(2025)》,数据显示,截至2025年6月,我国生成式人工智能用户规模

2025-10-21.

马斯克预测Grok下月有10%可能实现AGI,即将到来的里程碑

埃隆·马斯克近日在社交媒体平台X(原Twitter)上公开表示,其旗下人工智能公司xAI即将推出的新一代大型语言模型Grok 5,存在10%的可能性实现通用人工智能(AGI)。他同时强调,这一概率仍

2025-10-21.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
剑影江湖手游
剑影江湖手游 角色扮演 2025-10-21更新
查看
二战风云2
二战风云2 棋牌策略 2025-10-21更新
查看
器灵宝塔
器灵宝塔 角色扮演 2025-10-21更新
查看
符文大师
符文大师 休闲益智 2025-10-21更新
查看
枪战精英
枪战精英 飞行射击 2025-10-21更新
查看
阿瓦隆之王oppo客户端
阿瓦隆之王oppo客户端 棋牌策略 2025-10-21更新
查看
克隆战争游戏
克隆战争游戏 角色扮演 2025-10-21更新
查看
阿瓦隆之王全球服
阿瓦隆之王全球服 棋牌策略 2025-10-21更新
查看
二战风云2
二战风云2 棋牌策略 2025-10-21更新
查看
吃货大街正
吃货大街正 休闲益智 2025-10-21更新
查看