Deepseek靠OCR逆袭:MAU反超豆包的背后突围

随着人工智能领域的竞争日渐升温,DeepSeek与豆包作为两大面向个人用户的AI应用巨头,备受市场瞩目。近期,DeepSeek在工具模型方向有了新的突破,研究团队于Hugging Face和GitHub平台推出并开源了DeepSeek-OCR模型。该模型参数规模约为3B,创新性地采用了“视觉-文本压缩”技术方案,文档识别效率显著超越传统OCR系统,为DeepSeek在工具型模型领域的版图补上了关键一环。
DeepSeek-OCR的核心创新在于其“视觉-文本压缩”方案。常规情况下,大型语言模型执行OCR任务时处理成本高昂,处理的文字单元数量越多,计算量便呈现二次方增长;传统OCR系统若要识别单页文档,往往需要处理数千个文字标记。而DeepSeek-OCR的工程团队独辟蹊径,借助视觉语言模型,在语义层面对图像中的文字信息进行压缩,将原本需要大量文字标记表达的内容,转化为数量更少、语义密度更高的视觉标记,从而大幅降低了整体运算开销。在OmniDocBench测试中,仅使用100个视觉标记的DeepSeek-OCR,在识别准确率上超越了需用256个标记的GOT-OCR+2.0;在标记数量少于800的情况下,也同样击败了每页需超过6000个标记的MinerU+2.0。
该模型还支持“深度解析模式”,能够直接将财务报表等图像数据转化为结构化信息,并自动生成对应的Markdown表格与图片。这意味着包含数据、曲线、图注的财报截图,不再需要人工复制粘贴或二次整理,系统便能够还原出可直接编辑的分析稿格式。其系统由负责图像理解的DeepEncoder与基于DeepSeek-3B-MoE架构的文本生成模块共同构成。DeepEncoder模块包含约3.8亿参数,专门负责解析图像并生成压缩后的视觉特征;文本生成部分则激活5.7亿个活跃参数,依据这些视觉特征生成高精度的文字描述。据内部测试,DeepSeek-OCR在10倍压缩率下解码准确率可达97%,即便压缩至20倍亦可维持60%的准确度。系统只需为大语言模型提供图像压缩后对应的极少量token,便能表征整篇文档内容。
然而在个人用户市场,DeepSeek近期遭遇了豆包的强劲反超。根据QuestMobile披露的数据,2025年8月,豆包月活跃用户数约为1.57亿,环比增长约6.6%;同期DeepSeek月活用户约为1.43亿。这意味着豆包经历了两个季度的沉寂后,重新夺回了国内个人AI应用市场的领先地位。
豆包的崛起与其生态优势及用户触达策略密不可分。与DeepSeek不同,豆包定位为服务所有“大众用户”、强调场景化体验,在语音、图像、社交分享等方向均拓展了模型能力,降低了用户的使用门槛。一方面,豆包借助抖音等字节系社交平台的分发能力,通过在视频内容中投放广告,吸引了大量新用户并实现转化。另一方面,豆包在立项之初便瞄准了最广泛的受众,产品体验覆盖面更宽。“豆包”这个名称朗朗上口,应用的品牌标识设计也更贴近拟人化风格,人格化交互能力是其品牌建设的重要环节。随豆包一同公测的对话助手“小宁”,展现了作为陪伴型智能体的亲和力。凭借字跳在语音、视频生成等多个领域构建的模型矩阵,豆包支持文本、语音、图像、视频生成等多模态功能,界面逻辑清晰,新手用户上手迅速。
从产品更新节奏来看,DeepSeek于2024年底发布V3模型,今年5月推出R1-0528版本,针对R1模型的幻觉问题进行了优化。但在后续,尽管多次传出新版本即将发布的消息,传闻中的R2却迟迟未见正式亮相。在本次OCR模型发布之前,DeepSeek下半年的主要动作是更新了V3.1模型,新增了对混合推理模式的支持,以及长达128K tokens的上下文输入窗口。而在月活榜单被豆包反超后,DeepSeek也未在应用交互或生态建设上做出重大调整,似乎仍在沿用类似ChatGPT的问答式交互逻辑,坚定走在“模型即产品”的道路上。
在战略方向上,DeepSeek始终坚持“技术深耕”的路线。此次推出的DeepSeek-OCR模型展现了其在大型语言模型领域的技术探索实力。不过,面对生态体系更为庞大的竞争对手,DeepSeek当前的产品理念与风格,对用户规模转化的效率仍有待验证。即便被豆包超越,DeepSeek依然坐拥1.5亿月活用户,在个人用户市场已打下坚实基础。在技术指标上,DeepSeek也一直延续超大规模参数模型策略,其V3系列模型总参数量高达671B,而同期其他主流开源大模型,如智谱的GLM-4.5参数量为355B。
DeepSeek-OCR的发布不仅在个人工具类应用场景展现出良好前景,还可能成为大模型训练的“催化剂”。据了解,DeepSeek-OCR每天可在单张Nvidia A100 GPU上高效处理超过20万页的数据资料。若配置20台服务器,每台搭载8颗A100处理器,其日处理量将跃升至每日3300万页。如此高效的数据吞吐能力,可以有效帮助构建其他大模型的训练数据集,为专注于超大规模参数路线的AI企业提供更高效的数据解决方案。
展望未来,DeepSeek若要在激烈竞争中与豆包形成制衡,生态建设将成为需要重点考量的因素。以OpenAI为例,进入2025年后仍在积极拓展各领域生态能力,例如参与AI玩具等硬件方案的研究,其Sora2视频生成平台也通过更直观的用户界面,为DeepSeek提供了有价值的参考范例。对DeepSeek而言,除了加速下一代模型的迭代外,如何利用好庞大的用户基础同样至关重要。由于模型产品路线不同,短期内DeepSeek显然无法复制字跳/OpenAI的生态策略,但在个人端生态上能否走出差异化路径,将决定其能否再次向豆包发起冲击。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
领克03新车上市,11万起搭载高性能动力与智能配置
领克03新车型于10月17日正式发布,推出包含基础款与高性能版03+在内的多个配置,售价区间覆盖10万元至40万元以上。购车可享受超过一万元的税费减免,同时还能领取三千元现金补贴,实际入手门槛降至1
数字孪生公司架构解密:技术、组织与业务三维驱动产业升级
数字孪生技术作为连接物理世界与数字世界的核心纽带,正在工业制造、城市治理、医疗健康等领域掀起一场智能化变革。以虎置文化集团为代表的行业先锋,通过构建 "技术-组织-业务 "三维协同架构,为数字孪生产业发
8万级2.8T柴油动力,江西五十铃RE-MAX皮卡全新上市
日前,江西五十铃最新发布了一组全新RE-MAX皮卡的最新图片。该车型定位为8万元级别入门级皮卡,可视作现款瑞迈的升级版本。此次更新在动力系统上实现全面进化,将搭载一台2 8T柴油发动机,峰值扭矩提升
京东11.11电子消费趋势:AI产品成交额激增200%领跑
“又好又便宜”的京东11 11启动以来,从线上到线下,从传统的到创新的,消费热潮持续不断。截至10月20日18时,消费电子产品保持增长优势,AI相关的智能电子产品成交额同比增速近200%,包括AI手
iPhone 16售价疑曝光,苹果官网错别字引热议
10月21日消息,网友发现苹果中国正式的AirPods 4耳机介绍页面出现错别字,原本的“AirPods 4”写成了“ArPods 4”,不过苹果正式紧急修正了这一错误。值得一提的是,由于iPhon
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















