Deepseek靠OCR逆袭:MAU反超豆包的背后突围
随着人工智能领域的竞争日渐升温,DeepSeek与豆包作为两大面向个人用户的AI应用巨头,备受市场瞩目。近期,DeepSeek在工具模型方向有了新的突破,研究团队于Hugging Face和GitHub平台推出并开源了DeepSeek-OCR模型。该模型参数规模约为3B,创新性地采用了“视觉-文本压缩”技术方案,文档识别效率显著超越传统OCR系统,为DeepSeek在工具型模型领域的版图补上了关键一环。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
DeepSeek-OCR的核心创新在于其“视觉-文本压缩”方案。常规情况下,大型语言模型执行OCR任务时处理成本高昂,处理的文字单元数量越多,计算量便呈现二次方增长;传统OCR系统若要识别单页文档,往往需要处理数千个文字标记。而DeepSeek-OCR的工程团队独辟蹊径,借助视觉语言模型,在语义层面对图像中的文字信息进行压缩,将原本需要大量文字标记表达的内容,转化为数量更少、语义密度更高的视觉标记,从而大幅降低了整体运算开销。在OmniDocBench测试中,仅使用100个视觉标记的DeepSeek-OCR,在识别准确率上超越了需用256个标记的GOT-OCR+2.0;在标记数量少于800的情况下,也同样击败了每页需超过6000个标记的MinerU+2.0。
该模型还支持“深度解析模式”,能够直接将财务报表等图像数据转化为结构化信息,并自动生成对应的Markdown表格与图片。这意味着包含数据、曲线、图注的财报截图,不再需要人工复制粘贴或二次整理,系统便能够还原出可直接编辑的分析稿格式。其系统由负责图像理解的DeepEncoder与基于DeepSeek-3B-MoE架构的文本生成模块共同构成。DeepEncoder模块包含约3.8亿参数,专门负责解析图像并生成压缩后的视觉特征;文本生成部分则激活5.7亿个活跃参数,依据这些视觉特征生成高精度的文字描述。据内部测试,DeepSeek-OCR在10倍压缩率下解码准确率可达97%,即便压缩至20倍亦可维持60%的准确度。系统只需为大语言模型提供图像压缩后对应的极少量token,便能表征整篇文档内容。
然而在个人用户市场,DeepSeek近期遭遇了豆包的强劲反超。根据QuestMobile披露的数据,2025年8月,豆包月活跃用户数约为1.57亿,环比增长约6.6%;同期DeepSeek月活用户约为1.43亿。这意味着豆包经历了两个季度的沉寂后,重新夺回了国内个人AI应用市场的领先地位。
豆包的崛起与其生态优势及用户触达策略密不可分。与DeepSeek不同,豆包定位为服务所有“大众用户”、强调场景化体验,在语音、图像、社交分享等方向均拓展了模型能力,降低了用户的使用门槛。一方面,豆包借助抖音等字节系社交平台的分发能力,通过在视频内容中投放广告,吸引了大量新用户并实现转化。另一方面,豆包在立项之初便瞄准了最广泛的受众,产品体验覆盖面更宽。“豆包”这个名称朗朗上口,应用的品牌标识设计也更贴近拟人化风格,人格化交互能力是其品牌建设的重要环节。随豆包一同公测的对话助手“小宁”,展现了作为陪伴型智能体的亲和力。凭借字跳在语音、视频生成等多个领域构建的模型矩阵,豆包支持文本、语音、图像、视频生成等多模态功能,界面逻辑清晰,新手用户上手迅速。
从产品更新节奏来看,DeepSeek于2024年底发布V3模型,今年5月推出R1-0528版本,针对R1模型的幻觉问题进行了优化。但在后续,尽管多次传出新版本即将发布的消息,传闻中的R2却迟迟未见正式亮相。在本次OCR模型发布之前,DeepSeek下半年的主要动作是更新了V3.1模型,新增了对混合推理模式的支持,以及长达128K tokens的上下文输入窗口。而在月活榜单被豆包反超后,DeepSeek也未在应用交互或生态建设上做出重大调整,似乎仍在沿用类似ChatGPT的问答式交互逻辑,坚定走在“模型即产品”的道路上。
在战略方向上,DeepSeek始终坚持“技术深耕”的路线。此次推出的DeepSeek-OCR模型展现了其在大型语言模型领域的技术探索实力。不过,面对生态体系更为庞大的竞争对手,DeepSeek当前的产品理念与风格,对用户规模转化的效率仍有待验证。即便被豆包超越,DeepSeek依然坐拥1.5亿月活用户,在个人用户市场已打下坚实基础。在技术指标上,DeepSeek也一直延续超大规模参数模型策略,其V3系列模型总参数量高达671B,而同期其他主流开源大模型,如智谱的GLM-4.5参数量为355B。
DeepSeek-OCR的发布不仅在个人工具类应用场景展现出良好前景,还可能成为大模型训练的“催化剂”。据了解,DeepSeek-OCR每天可在单张Nvidia A100 GPU上高效处理超过20万页的数据资料。若配置20台服务器,每台搭载8颗A100处理器,其日处理量将跃升至每日3300万页。如此高效的数据吞吐能力,可以有效帮助构建其他大模型的训练数据集,为专注于超大规模参数路线的AI企业提供更高效的数据解决方案。
展望未来,DeepSeek若要在激烈竞争中与豆包形成制衡,生态建设将成为需要重点考量的因素。以OpenAI为例,进入2025年后仍在积极拓展各领域生态能力,例如参与AI玩具等硬件方案的研究,其Sora2视频生成平台也通过更直观的用户界面,为DeepSeek提供了有价值的参考范例。对DeepSeek而言,除了加速下一代模型的迭代外,如何利用好庞大的用户基础同样至关重要。由于模型产品路线不同,短期内DeepSeek显然无法复制字跳/OpenAI的生态策略,但在个人端生态上能否走出差异化路径,将决定其能否再次向豆包发起冲击。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI能从单份血样检出多种神经疾病
来源:科技日报科技日报讯 (记者刘霞)由瑞典隆德大学领衔的国际研究团队,研发出一款新的人工智能(AI)模型。该模型仅需一份血液样本,便能精准识别多种神经退行性疾病。团队期望,该AI模型未来能实现“一
褪去虚火,脑机接口方能释放长远价值
来源:科技日报2026年开年,马斯克宣称脑机接口产品将于年内启动量产,引爆全球市场情绪。国内资本随即扎堆追捧,脑机接口相关概念股大幅走高,行业短期炒作虚火蔓延。进入3月,脑机接口迎来多重利好:脑机接
黎万强、洪锋退出小米科技股东名单
人民财讯4月7日电,企查查APP显示,近日,小米科技有限责任公司发生工商变更,原股东小米联合创始人黎万强、洪锋退出,同时,注册资本由18 5亿元减至约14 8亿元。 企查查信息显示,该公司成立于20
新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月
新华社北京4月7日电 新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月 新华社记者张晓茹 美国东部时间6日18时40分许(北京时间7日6时40分许),执行美国“阿耳忒弥斯2号”载人绕月飞行任
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

