DeepSeek新模型突破：以视觉压缩文本实现小参数高性能

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek新模型突破：以视觉压缩文本实现小参数高性能

热心网友时间：2025-10-21

转载

最近，一款名为DeepSeek-OCR的开源模型在科技界引起了广泛关注。凭借其独特的技术路径与高效表现，该模型被硅谷多位专家誉为人工智能领域的突破性成果。这款由DeepSeek团队推出的模型，通过"视觉压缩文本"的创新思路，成功解决了大模型处理长文本时算力消耗过大的难题，甚至有观点认为它触及了谷歌Gemini等头部模型的"技术护城河"。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

其核心突破在于"上下文光学压缩"机制。研究团队提出，既然单张图片能够承载数千字信息，是否可以通过视觉token压缩文本内容，让模型借助"看图"来理解信息？基于这一构想，他们构建了仅含3B参数的DeepSeek-OCR模型，在主流的文档解析基准OmniDocBench上取得了领先成绩。实验数据显示，该模型使用100个视觉token即可超越需要256个token的GOT-OCR2.0；当视觉token增至400个时，性能已与先前SOTA模型持平；而使用不超过800个token时，其表现远胜需要近7000个token的MinerU2.0。

技术实现依托两大核心组件：编码器DeepEncoder与解码器DeepSeek3B-MoE-A570M。前者采用"局部-压缩-全局"三级架构，先通过窗口注意力模型提取高分辨率图像的局部特征，再经16倍卷积压缩器大幅减少token数量，最后由全局注意力模型深度解析浓缩后的信息。这种设计使模型在保持高信息密度的同时，将计算开销控制在合理范围。更为关键的是，DeepEncoder支持从"Tiny"（512x512分辨率，64个token）到"Gundam"（动态分块，近800个token）的多种输入模式，可根据任务需求灵活调整压缩强度。

在实际性能验证中，模型展现出强大的文本解析能力。当压缩率小于10倍（文本token数为视觉token数的10倍以内）时，OCR解码准确率高达97%；即便压缩率达到20倍，准确率仍保持在60%左右。这种"以小博大"的效果，得益于视觉压缩对文本信息的高效表达——一张图片包含的token量远少于直接编码文本所需的量，却能完整保留语义信息。

技术开源后迅速引发行业热议。GitHub平台该模型已获3.3K星标，HuggingFace热度冲至榜单第二，X社交平台上专家评价持续不断。曾批评AI现状的卡帕西公开表示："将图像作为LLM输入的思路非常巧妙，这确实是更高效的表达方式。"更有观点将其类比为"AI的JPEG时刻"，认为这种视觉-文本压缩范式为AI记忆架构开辟了新路径。

研究团队进一步提出，该技术可模拟人类记忆的"遗忘机制"。通过将近期记忆渲染为高分辨率图像（用更多token保留细节），远期记忆压缩为低分辨率图像（用更少token表示模糊信息），模型能动态分配计算资源。这种设计使模型在处理超长对话或文档时，可像人类一样自然"遗忘"过期信息，从而构建无限长上下文架构。尽管目前该方向仍处早期研究阶段，但已为破解AI长文本处理中的计算资源暴涨问题提供了新思路。

除技术突破外，DeepSeek的高效研发风格同样引人注目。研究显示，其数据生成方法仅需一块A100-40G+GPU，每日即可产出超20万页优质LLM/VLM训练数据。这种低成本、高产出的模式，进一步降低了大模型研发的门槛。

目前，DeepSeek-OCR已支持对金融报表、化学分子式、数学几何图及100多种语言的复杂图像解析。其开源代码和模型权重可通过Hugging Face及GitHub平台获取，为全球开发者提供了研究基础。

来源:https://www.itbear.com.cn/html/2025-10/993722.html

上一篇： DeepSeek借OCR突破模型瓶颈：开启长文本处理新篇章

下一篇：美媒主编凯利：中国AI发展迅猛，五年有望突破顶尖芯片技术