DeepSeek新突破：视觉-文本压缩技术攻克LLM长上下文难题

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek新突破：视觉-文本压缩技术攻克LLM长上下文难题

热心网友时间：2025-10-20

转载

人工智能领域再次迎来重大突破，DeepSeek团队在视觉-文本转换技术上取得重要进展。其最新发布的OCR模型通过创新的架构设计，实现了前所未有的压缩效率。该模型采用端到端一体化设计，在保持高精度的前提下，仅用极少量的视觉token便能还原出十倍以上的文本信息，为解决大语言模型在长上下文处理方面面临的技术难题提供了全新思路。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

研究团队提出的“上下文光学压缩”理论，通过对视觉表征方式的优化，成功将包含数千字符的文档图像压缩至数十个视觉token。实验结果显示，在Fox基准测试中，该模型即使达到10倍压缩比，依然能够保持97%的解码准确率；当压缩比提升至20倍时，精度仍可维持在60%左右。这种压缩效率远超传统OCR模型，为视觉语言模型的数据处理开辟了新途径。

模型的核心创新在于其双编码器架构。视觉编码器DeepEncoder采用SAM-base与CLIP-large的串联设计，通过窗口注意力和全局注意力的组合优化，在保持3.8亿参数规模的同时，实现了高分辨率图像的有效压缩。特别设计的动态插值位置编码机制，使模型能够自适应不同分辨率的输入，最高可处理超过A4尺寸的超高分辨率图像。

解码器部分采用DeepSeek-3B-MoE架构，通过混合专家模型设计，在激活57亿参数的情况下达到了300亿参数模型的表达能力。这种设计使模型在保持高效推理的同时，能够准确解析包含图表、化学方程式、几何图形等复杂内容的图像，并支持近百种语言的文本识别。

在OmniDocBench基准测试中，该模型展现出显著优势。使用100个视觉token时，其性能已超越需要256个token的GOT-OCR2.0；当token数量控制在800个以内时，更超越了需要6000个token的MinerU2.0。实际部署测试显示，20个计算节点（配置A100-40G GPU）每日可生成3300万页训练数据，大幅降低了大语言模型与视觉语言模型的预训练成本。

研究团队特别强调了模型的通用性能。除文档文本识别外，该模型还能完成图像描述、物体检测、语境界定等基础视觉任务。多语言测试表明，模型对包括中文、阿拉伯文在内的复杂文字系统同样具有高效识别能力，这使其在全球范围内的应用成为可能。

技术白皮书详细披露了模型的实现细节。通过两层卷积模块实现的16倍下采样，配合瓦片化处理技术，有效控制了激活内存消耗。特别设计的Gundam模式，通过组合不同分辨率的局部和全局视图，进一步提升了超高分辨率图像的处理能力。这些创新使得单个模型能够同时支持多种分辨率输入。

目前，该模型已在GitHub和HuggingFace平台开源，包含完整代码和预训练权重。研究团队表示，这种视觉-文本压缩范式不仅适用于OCR任务，还可推广到其他需要多模态处理的场景，为提升大规模AI系统的计算效率提供了新的技术路径。实际应用案例显示，该模型在金融、法律、科研等文档密集领域具有显著优势。

来源:https://www.itbear.com.cn/html/2025-10/993007.html

上一篇： 10月20日AI板块微涨0.22%，安恒信信息领涨

下一篇： JetBrains CodeCanvas项目转向AI驱动，重塑开发工具未来