小红书与剑桥联合推出HyperEyes并行多模态搜索智能体
在AI智能体领域,一个长期存在的效率瓶颈在于“看”与“查”的割裂。传统方法需要先裁剪图片中的目标,再逐一搜索,过程繁琐且容易出错。如今,一项名为HyperEyes的技术,正试图从根本上碘伏这一流程。
它由小红书与剑桥大学联合推出,其核心在于一个首创的“UGS范式”。简单来说,它把视觉定位和检索这两个步骤,融合成了一个单一的“原子动作”。这意味着,面对一张包含多个实体的复杂图片,模型可以在单轮交互内,并发地定位并搜索所有目标。这不仅仅是流程上的优化,更是一种底层范式的重构。
HyperEyes是什么
HyperEyes是一个并行多模态搜索智能体。它的最大亮点是提出了UGS(统一有依据搜索)范式,将视觉定位与检索融合为单一动作,从而实现了单轮多实体并发搜索。在技术实现上,它采用了双粒度效率感知强化学习框架进行训练。效果如何?其30B参数的版本在6个主流基准测试中,准确率超越了同规模最强的开源模型9.9%,而工具调用轮次更是减少了惊人的5.3倍,真正在准确率与效率之间达到了帕累托最优。
HyperEyes的主要功能
那么,这个智能体具体能做什么?它的功能设计完全围绕“并行”与“高效”展开:
- 并行多模态搜索:这是核心。传统串行“裁剪-搜索”流程被彻底抛弃,取而代之的是在单轮内并发定位并检索图片中的多个实体。
- 统一有依据搜索:视觉定位框不再是独立步骤,而是直接嵌入到检索动作的参数中。一次函数调用,就能携带多个目标框信息出去搜索。
- 渐进式拒绝采样:用于构建高质量训练数据。方法是在递增的轮次预算下,提纯出高效的行动轨迹,最终构建了3万条零冗余的并行种子数据。
- 双粒度效率感知RL:训练框架的两大支柱。TRACE负责在轨迹级别动态收紧效率标尺;OPD则负责在失败轨迹上注入Token级别的纠正信号。
- IMEB基准评估:为了公正评估,团队发布了包含300个实例的多实体视觉评测集,并配套了CAS评分,用以联合量化准确率与搜索效率。
- 多工具协同:它并非单打独斗,而是集成了图像搜索与文本搜索工具,支持同时获取视觉和文字两种证据。
HyperEyes的技术原理
实现上述功能,背后是一套精巧的技术设计。理解其原理,就能明白它为何能突破效率瓶颈:
- UGS动作空间重构:这是基石。将视觉定位从独立的前置步骤,转化为检索动作的内嵌参数,从物理层面打通了单轮多目标并发的通路。
- 并行数据合成流水线:巧妇难为无米之炊。通过多类图片拼接来合成多实体查询场景,并基于知识图谱随机游走构造复杂的多约束问题,同时剔除那些有“捷径”可走的简单样本。
- TRACE动态参考奖励:训练中的效率“教练”。它以当前已知的最优轨迹为动态标尺,只有模型表现得比这个标尺更高效时,才会给予奖励,并且每轮自动收紧标准,推动模型不断进化。
- OPD非对称策略蒸馏:训练中的精准“纠错”。当轨迹最终答错时,会启动一个235B参数的“教师模型”,为这段失败轨迹提供密集的Token级监督,目的是保护模型已经学会的高效并发本能,只修正错误部分。
- 联合优化目标:采用GRPO方法,结合轨迹级的效率奖励和Token级的蒸馏损失,同步优化策略网络的准确率与效率,两手抓,两手都要硬。
- CAS成本感知评分:评估的“指挥棒”。其公式为 Acc²×100/(N_tok+2N_tool+1),巧妙地将准确率、Token消耗和工具调用轮次统一为一个综合效率指标,引导模型向真正实用的方向发展。
如何使用HyperEyes
如果你对这项技术感兴趣,想要亲自尝试,可以遵循以下步骤:
- 获取开源资源:项目已在GitHub上开源,仓库地址为 https://github.com/DeepExperience/HyperEyes 。
- 准备基础模型:需要下载并部署Qwen3-VL-30B或235B作为视觉语言模型的主干网络,并确保GPU显存满足相应的推理需求。
- 配置外部检索工具:接入图像搜索与文本搜索的API(例如Bing Image Search、Google Custom Search),这些将作为智能体执行UGS并行搜索的外部工具。
- 输入多实体查询:上传一张包含多个实体的复杂图片,并输入自然语言问题。HyperEyes会自动执行UGS搜索,单轮并发定位并检索所有目标。
- 查看并行搜索结果:模型会返回结构化的检索结果与最终答案,其中包含每个实体的视觉证据与文本证据。
- 评估搜索效率:可以使用前述的CAS(成本感知评分)指标,来量化评估整个过程的准确率、Token消耗与工具调用轮次的综合效率。
HyperEyes的核心优势
与现有方案相比,HyperEyes的优势是全方位的,主要体现在以下几个维度:
- 效率飞跃:其30B版本平均工具调用轮次仅需2.2次,这仅仅是同规模最强开源模型的五分之一,实现了5.3倍的效率提升。
- 准确率领先:在6个基准测试上,它超越了最强的开源同规模模型9.9%。其235B版本更是以仅1.1%的微小差距,逼近了Gemini-3.1-Pro的水平。
- 抗噪声鲁棒:并行策略有效规避了过度检索导致的幻觉问题。在真假证据混合的测试中,其准确率提升了3.7%到5.8%。
- 消除错误级联:UGS范式彻底消除了对串行裁剪的依赖,这意味着前置的定位偏差不会再污染后续的搜索结果,从根本上切断了错误传递链。
- 帕累托最优:在准确率-效率的联合优化前沿上,它实现了全面占优,其CAS评分达到了次优开源模型的7.6倍。
- 全栈效率重塑:这不是某个模块的修修补补,而是从动作空间定义、数据合成到强化学习训练的全栈底层重构,系统性地解决了串行困局。
HyperEyes的项目地址
- GitHub仓库:https://github.com/DeepExperience/HyperEyes
- arXiv技术论文:https://arxiv.org/abs/2605.07177
HyperEyes的同类竞品对比
口说无凭,我们将其与市场上同类型的智能体放在一起对比,优势便一目了然:
| 对比维度 | HyperEyes-30B | DeepEyes-V2 | VDR |
|---|---|---|---|
| 开发团队 | 小红书/剑桥大学 | 小红书 | 未公开 |
| 搜索范式 | 并行并发(UGS) | 串行裁剪-搜索 | 串行深度搜索 |
| 平均工具轮次 | 2.2 | 3.6 | 11.6 |
| 6基准平均准确率 | 64.0% | 39.1% | 54.1% |
| IMEB准确率 | 46.7% | 18.0% | 21.2% |
| CAS效率评分 | 0.910 | 0.119 | 0.014 |
| 核心机制 | TRACE+OPD双粒度RL | 工具奖励激励 | 多轮深度推理 |
| 错误级联风险 | 免疫(原子动作) | 高风险 | 中等风险 |
HyperEyes的应用场景
如此强大的并发搜索能力,能用在哪些地方?其应用场景非常广泛:
- 多人物视觉推理:识别合影中特定人物的身份、职业与历史事件,并发检索多人的生平信息。
- 电商商品比对:对包含多个商品的复杂场景图进行并发搜索,一次性获取所有商品的价格、品牌与用户评价信息。
- 跨模态知识问答:回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询,例如“这幅画中左侧的雕塑和右侧的建筑分别建于什么时代?”。
- 新闻事实核查:对包含多人物、多场景的新闻图片进行并发检索,快速验证事件真实性、人物身份及背景信息。
- 学术图表解析:对论文截图中的多个图表、公式、引用进行并行定位与内容检索,辅助快速阅读和理解。
- 社交媒体审核:对复杂图片中的多个实体(如文字、logo、人物)进行并发搜索,快速判断是否存在违规或误导性内容。
总的来说,HyperEyes不仅仅是一个效率更高的工具,它代表了一种解决多模态搜索问题的新思路。通过将定位与检索原子化,它打破了串行处理的固有范式,为AI智能体在复杂现实场景中的实用化,推开了一扇新的大门。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
可灵AI制作气泡上升破裂特效详细教程
在可灵AI中生成气泡从液体底部升起到水面破裂的特写镜头时,若效果不佳,可尝试:将过程拆解为三个物理阶段并用精确参数描述;利用首尾帧控制并配合光学破裂指令;启用视频3 0模型并注入液体粘度、表面张力等物理参数;上传真实液体基底图并开启表面法线重建功能,以引导模型模拟真。
AI模特换装视频效果真实自然吗服装电商实测解析
使用可灵AI制作服装电商换装视频时,需提供高清、姿态标准且背景简洁的原图。调整参数时应强化物理模拟与运动平滑,关闭风格化增强。复杂服装可采用分层替换与局部重绘处理。最后,引入真实动作参考视频进行微观校准,可显著提升动作自然度与布料动态真实感。
QoderWake数字分身动作捕捉与还原技术详解
QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术
简历工作经历优化技巧 AI助你告别流水账式写法
简历应避免流水账式经历和空洞评价。工作经历需用“动词+成果+数据”结构突出价值,如具体增长或性能提升数据。自我评价应基于事实,清晰展示核心优势与证明。AI工具可辅助优化结构,但关键数据、业务背景及岗位匹配逻辑需自行把控,核心在于用结果和证据展现个人价值。
阿里云发布全栈芯片路线图 平头哥真武M890性能提升三倍
阿里云推出平头哥新一代AI芯片真武M890,配备144GB显存,算力性能达上一代3倍,支撑智能体高频模型调用。该芯片已实战验证,未来将推出后续型号。平头哥坚持软硬一体策略,通义千问大模型在其上自主运行并实现性能提升,阿里云目标以此扩大AI市场份额。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

