Meta分割一切3.0推出,新增概念提示实现语义分割新玩法
传统语义分割好无趣好无聊,技能语义分割加入概念提示,好好玩,要爆了。(doge)
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

SAM 3——第三代“分割一切”模型刚刚被发现,已经悄然投稿ICLR 2026。
论文还在双盲评审阶段,作者匿名中,但标题暴露一切。

简单来说,就是在这个最新新版中,分割模型终于能听懂人话了:只要说出想要的东西,SAM 3就能在图像/视频中分割出对应实例。
比如,输入“条纹猫”,SAM 3自己就能找出并分割图中所有带条纹的猫猫:

值得一提的是,SAM 3处理一张含100多个物体的图片仅需30ms,对视频也有近实时处理能力。

能听懂人话的SAM
SAM 1引入了基于点、框、掩码等视觉提示的交互式分割任务,开辟了分割模型的新范式;SAM 2则在此基础之上,加入了对视频和记忆的支持。
这一次,SAM 3让这种交互式分割更进一步:支持基于短语、图像示例等概念提示的多实例分割任务——对,捎带手突破了前代只能处理单个实例的局限。
论文中,SAM 3的研究团队将这种新任务范式命名为PCS(Promptable Concept Segmentation)。
PCS:可提示概念分割
PCS的定义是,给定图像或视频,模型能够基于短语、图像示例,或者两者结合的方式,分割其中所有匹配提示概念的实例。
相比于传统分割任务,PCS强调:
开放性词汇:不局限于预定义的固定类别,支持用户输入任意名词短语作为分割目标;
全实例分割:找到并分割所有符合提示的实例,在视频中,还能保持不同帧之间的身份一致性;
多模态提示:支持多种提示输入,包括文本提示、视觉提示,以及两者结合的方式;
用户交互:允许用户通过交互进行分割结果的精细优化。
新架构设计
SAM 3为实现PCS设计了新的架构。

主要是在检测与分割模块上,SAM 3的检测器基于DETR(Deformable Transformer)架构,能够根据语言和视觉提示生成实例级的检测结果。
同时,引入了Presence Head模块,解耦物体的识别(是什么)和定位(在哪里)任务——
在传统对象检测框架中,模型往往需要同时判断目标是否存在、位置在哪里,这可能导致冲突,尤其是在多实例分割任务中容易出问题。
Presence Head将两者分开处理,从而进一步提升了模型的检测精度。
大规模数据引擎
为了改进PCS,研究团队还专门构建了一个可扩展的数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集。
数据引擎由多阶段构成,能够逐步提升数据的多样性和难度。
整个构建过程中人类和大语言模型会相互检查彼此的工作,保证高质量的同时提升了标注的效率。

SA-Co基准
为了评估模型在开放词汇分割任务中的性能,论文还提出了SA-Co(Segment Anything with Concepts)基准。
SA-Co包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。

不过需要说明的是,SAM 3对语言的处理还局限于简单的短语提示,不支持复杂的语言表达,并不具备多模态大模型的语言生成、复杂语言理解和推理能力。
实验结果
实验结果表明,SAM 3在可提示分割任务中刷新了SOTA。
在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5提升不少。
在新的SA-Co基准测试中,SAM 3的表现至少比基线方法强2倍。

另外,在针对视频的PVS(Promptable Visual Segmentation)任务中,SAM 3的性能也优于SAM 2。

研究人员还把SAM 3和多模态大模型(MLLM)相结合,探索解决更复杂的任务需求。
比如分割图片中“坐着但没拿礼物盒的人”。
大模型会先拆解需求,比如先找坐着的人,再排除拿礼物盒的人,然后给SAM 3发指令。
结果显示,SAM 3+MLLM的组合比专门做推理分割的模型效果还要好,并且无需专门的数据做训练。

在H200 GPU上,SAM 3处理含100多个实体的单张图像只需要30ms的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。
不过,论文也指出,SAM 3难以通过零样本的方式,将能力泛化到如医疗图像、热成像之类的细分领域。
视频分割任务中,遇到多目标场景,模型的实时性能会下降,需要多GPU并行处理。
论文地址:https://openreview.net/forum?id=r35clVtGzw
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
核心骨干接连流失,DeepSeek首开融资或是无奈的“人才保卫战”
在AI大模型的狂飙时代,最固执的技术理想主义者也不得不向现实低头 风向变了。一向以独立、封闭著称,将外部资本牢牢拒之门外的DeepSeek,最近传出了融资计划。消息称,这家神秘的AI独角兽正计划以超过100亿美元(约682亿元软妹币)的估值,开启至少3亿美元的新一轮融资。对于由梁文锋掌舵的这家公司而
AI眼镜“渡江”:百镜大战的下一程
千问AI眼镜S1在4月15日开启现货发售,开售仅10小时即在天猫、京东、抖音等主流电商平台拿下多项销量榜单第一。 这火爆的场面,是不是有点眼熟?没错,就在一个多月前,千问AI眼镜G1在3月8日开售首日,也上演了全渠道现货售罄的戏码,上市首周就吃下了线上AI眼镜市场超过70%的份额。如果把时间线再往前
贾跃亭又拿到钱了!FF获美国一机构4500万美元投资
贾跃亭又拿到钱了!FF获美国一机构4500万美元投资 4月20日,市场传来一则重磅消息:法拉第未来(FF)宣布,已与一家美国中大型投资机构正式签署了总额4500万美元(约合3 06亿元软妹币)的融资协议。更关键的是,这笔款项已于签约当日全额到账。 这笔资金将流向何处?根据官方信息,它将主要用于加速F
奔驰“赢回中国”策略遭投资者质疑:过于强调豪华品牌定位或将适得其反
奔驰“赢回中国”策略遭投资者质疑:过于强调豪华品牌定位或将适得其反 4月20日消息,据路透社报道,在4月16日举行的年度股东大会上,梅赛德斯-奔驰的投资者们抛出了一个尖锐的问题:公司在中国市场的复苏路径,真的走对了吗?会上传递出一个明确的警告:如果继续过于强调其豪华定位,反而可能阻碍它重新赢回中国消
携程滴滴客服回应订购火车票受限:受12306风控升级影响
携程滴滴客服回应订购火车票受限:受12306风控升级影响 最近几天,不少朋友可能都遇到了点小麻烦。在商旅平台下单买火车票,页面时不时就弹出“12306请求异常”、“占座失败”或者“出票失败”的提示,让人心里直打鼓。这事儿,到底是怎么回事? 针对用户的反馈,几家主流商旅平台的客服给出了基本一致的回应。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

