苹果DeepMMSearch R1入局:多模态搜索终局已至?

苹果最近再次展现了其高产出能力!
近日,苹果在多模态网络搜索领域取得突破性进展,研发出一种新型多模态大语言模型赋能技术。这项创新有效解决了现有方法在动态信息处理和实时响应方面的局限性。
在现实应用场景中,多模态大语言模型需要调用外部知识源,并对瞬息万变的现实世界信息做出及时反应,以应对信息检索和知识密集型查询的挑战。当前主流技术如检索增强生成、搜索代理以及具备搜索功能的多模态大模型,往往受限于流程固化、搜索调用频繁以及查询构建不精准等问题,最终导致效率低下和结果不尽如人意。
为了突破现有技术瓶颈,苹果团队开发了DeepMMSearch-R1模型。该模型具备按需执行多轮网络搜索的能力,并能针对文本与图像搜索工具动态生成查询语句,具体流程如图1所示。该模型通过自我反思与自我修正机制,在多轮交互中自适应地优化文本搜索查询,同时利用检索内容作为反馈,结合原始问题持续改进搜索策略。
为了提升图像搜索效果,苹果引入了一个中间图像裁剪工具来应对背景噪声和干扰性视觉实体带来的挑战。在搜索过程中,DeepMMSearch-R1首先生成与问题最相关的视觉实体指代表述,随后利用该表述通过裁剪工具动态识别并截取图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种定向搜索方式显著提升了检索质量,并大幅提高了整体性能表现。
苹果采用两阶段训练流程:首先进行有监督微调,随后通过GRPO算法进行在线强化学习。这种训练方式旨在让模型学会在适当时机发起搜索、选择合适的工具、确定搜索内容,以及基于检索结果进行推理决策,从而判断下一步行动:是直接给出最终答案,还是进一步优化查询并开启新一轮搜索。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
红米K90 Pro Max首曝:骁龙8 Gen2独显性能对标小米旗舰
REDMI即将于10月23日19:00推出K90系列新品,此次发布会最大的亮点是首次引入Pro Max版本,该机型在硬件配置与功能设计上全面对标小米旗舰产品线,标志着K系列定位的重大升级。性能方面,
双11尾款刚付完,快递员已到门口?配送提速真相
10月21日消息,从10月20日晚上8点开始,天猫双11正式开启,不少网友在短视频平台上晒出了快递包裹,她们刚刚付完尾款没多久,快递员就把货物送到了。一名女子称,快递比自己先到家,双11的快递不到3
头部玩家结盟,消费机器人迎来iPhone时刻?
被短视频上“真男人必会韦伯斯特”支配的恐惧还未散去,即将登场的是智元机器人的“韦伯斯特空翻” 10月9日,美国明星初创企业Figure AI发布最新一代人形家务机器人,不但可以端茶
华为11月推X3+Pro路由:灯效如画,外形似艺术品
华为常务董事、终端BG董事长余承东在今日举办的发布活动中透露,备受期待的高端路由器新品华为X3 Pro将于11月正式登陆市场。这款产品凭借独特的艺术设计理念和前沿技术,成为本次发布会的焦点之一。据介
百度AI眼镜2025年亮相:今年开售,全场景功能详解
据行业内部消息,百度旗下智能穿戴设备迎来新成员——小度AI眼镜将于11月举办的百度世界2025大会上正式亮相,并计划在年内启动市场销售。这款产品曾在去年百度世界大会上以 "全球首款搭载中文大模型的原生
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















