清华大学与阿里巴巴合作研发AI视觉技术精准识别手持物品

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

清华大学与阿里巴巴合作研发AI视觉技术精准识别手持物品

热心网友时间：2026-05-15

转载

这项由清华大学与阿里巴巴集团联合完成的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.19636。

清华大学与阿里巴巴联手，让AI真正

想象一下电商直播间的日常场景：主播拿起一款包，指尖划过拉链，手掌感受皮质纹理，向观众细致展示每一个细节。这种“人与物品互动”的画面，每天在屏幕上重复上演数亿次。如果AI能够自动生成这样逼真的视频，仅需一张人物照片、一张产品图片和一段语音，就能合成出流畅自然的演示内容——这无疑将彻底革新内容生产的游戏规则。

这正是CoInteract系统所瞄准的核心目标。其面临的关键挑战在于，如何让AI生成的视频中，手与物品的互动看起来不仅真实自然，更要严格符合物理规律：手部不能穿透物体，手指姿势必须合理，整体观感需如同真人操作，而非生硬的动画效果。

一、AI生成视频为何频繁出现“手部失真”？

但凡使用过AI图像生成工具的用户，大多都见过这类“恐怖画面”：生成的人像五官精致、衣着得体，可一到手部就“原形毕露”——出现六根手指、关节扭曲、形态怪异等问题。在视频生成领域，这一缺陷被进一步放大，因为任何一帧的手部失真，都会在连续播放中变得格外刺眼。

问题的根源其实非常明确：当前主流的AI视频生成模型，本质上只是“通过视觉数据学会了像素填充”，却从未“从物理层面理解三维空间”。模型擅长记忆“某个位置应该是什么颜色的像素”，却完全不懂“手和物体在三维空间中究竟是何关系，手指该如何沿着物体表面自然弯曲”。

打个比方，现有的模型就像一个只临摹过菜谱图片的画家。他能画出一盘像模像样的饺子，但你若要求他画一双手正在捏饺子皮，他很可能画出手指直接插进面团里的诡异画面——因为他从未真正理解手与面团之间的物理接触与支撑关系。

因此，系统通常会犯两类典型错误：一是手部或面部的结构崩塌，例如手指合并、面部模糊；二是手与物品发生“穿模”现象，就像游戏角色卡进墙体一样，手部直接穿过了产品表面。在电商演示这种极度强调真实感与信任度的场景里，任何一种错误都足以让观众瞬间出戏，导致信任感荡然无存。

二、现有技术方案存在哪些主要缺陷？

在CoInteract问世之前，研究者们主要尝试过两种技术路径，但各自存在明显的“硬伤”。

第一条路径是“多条件生成”。其思路是为AI每一帧都提供详细的骨架姿势图和物品检测框作为参考，相当于让画家照着精细的线稿进行上色。这种方法精度固然较高，但问题在于准备这些“线稿”极其繁琐——每生成一段视频都需要运行大量预处理算法，导致技术门槛高、流程沉重。一旦需要更换场景或产品品类，整套准备工作就得推倒重来，灵活性极差。

第二条路径是“多参考图注入”。仅向模型提供一张人物参考图和一张产品参考图，让AI自行学习并融合生成视频。这种方法简单灵活，无需复杂的预处理，但代价是AI完全依靠“猜测”来合成互动，缺乏物理规律的约束。结果就是手部姿势常常不合理，产品可能悬空，场景前后不一致。

既然两条路径都难以走通，CoInteract便试图开辟第三条道路：既不需要繁重的前期处理，又能让AI真正学会人物与物体之间符合物理规律的空间交互。

三、CoInteract的核心设计：让AI同步感知“表象”与“结构”

CoInteract的整体框架基于“扩散变换器”（Diffusion Transformer, DiT）。你可以将其理解为一个“从噪音中逐步雕刻出清晰图像的工厂”——AI从一团随机噪声开始，一步步将其优化、细化成连贯的视频帧序列。

这项研究的关键创新在于，他们在训练阶段让AI同步生成两路内容。第一路是正常的彩色视频，即最终用户看到的画面；第二路则是一种特殊的“结构视频”——这路视频抹去人物的皮肤纹理和衣物细节，只保留人体的轮廓剪影，同时原封不动地保留产品的外观轮廓。这有点像X光片与普通照片的关系：普通照片追求视觉美观，X光片则直指内在的骨骼结构。

两路视频在训练时共享同一套AI模型参数。通过让“结构视频”这一路持续监督“彩色视频”的内容生成，AI逐渐建立起对手部、物品及二者空间关系的真实、深刻理解，而不仅仅是对表面像素颜色的记忆。

最巧妙的设计在于：训练结束后，那路“结构视频”可以直接丢弃。在实际推理（生成）阶段，系统只运行彩色视频这一路，不会产生任何额外的计算开销。这就好比一个学生在备考时借助参考答案来加深理解，但真正考试时全靠自己作答——参考答案的影响早已内化到他的知识体系之中。

四、非对称注意力机制：将训练所得智慧固化于模型

为了将双路训练带来的物理理解能力真正迁移到单路推理阶段，研究团队设计了一种名为“非对称协同注意力”的机制。这个名字听起来复杂，但背后的逻辑相当直观。

训练过程分为两个阶段。第一阶段，让两路视频的AI注意力模块互相“看到”对方的全部内容，进行充分的双向信息交流，从而学会两者之间的深层对应关系。第二阶段，开始“剪断”单向连接：彩色视频这一路不再查看结构视频，只关注自身内容；但结构视频这一路仍然可以同时观察彩色视频和自身。

这种不对称设计的关键在于梯度流的控制——结构视频对物理合理性的“学习信号”与“监督误差”，依然通过它“回望”彩色视频的连接通道，传递并影响两路共享的AI模型参数。也就是说，结构视频那种对物理合理性的“挑剔眼光”，在暗中塑造和优化着彩色视频的生成能力。当推理阶段彩色视频单独工作时，其模型参数已被这种训练方式深度重塑，自然更倾向于生成物理上合理的手部动作与人-物交互画面。

五、“人体感知专家混合体”：专才专用，精准处理

除了双路协同生成框架，CoInteract还针对手部和面部这些关键区域的生成，引入了一项专项设计，称为“Human-Aware MoE”（人体感知专家混合体）。

“专家混合”这个概念可以用餐厅后厨来类比。普通餐厅可能一个厨师包揽所有菜式，而高端餐厅则会细分岗位：甜点师专做甜点，烤肉师专攻烤肉，各司其职，最终出品的水准更高。

CoInteract采用了类似思路：AI在处理视频中不同区域的像素时，不再使用同一套通用逻辑，而是通过一个智能“路由器”来判断当前处理的图像区块属于哪个身体部位。如果是头部区域，就交给专门的“头像专家”网络处理；如果是手部区域，则转给“手部专家”处理；其他背景或身体区域则由“通用专家”处理。

训练这个路由器使用了人脸和手部的边界框标注数据——研究团队预先知道每一帧画面中脸和手的位置，并用交叉熵损失函数来监督路由器学会正确分配任务。值得注意的是，路由器在做分类决策前，会对AI的内部特征状态执行“停止梯度”操作，以防止路由器的学习过程干扰AI主体模型的核心训练。

这套专家混合设计带来的额外计算开销微乎其微——相比不使用该设计的基线版本，推理计算量仅增加1.04倍，几乎可以忽略，但手部清晰度和面部身份一致性却得到了显著提升。

六、如何构建让AI“理解交互”的训练数据？

再精妙的算法架构，若没有合适的训练数据支撑，也是空中楼阁。为了让CoInteract学习到真实、多样的人-物交互模式，研究团队精心设计并构建了一套高质量的数据处理流程。

原始素材来源于真实的电商产品演示和直播视频，总计约40小时。首先，团队使用Qwen-Edit图像编辑模型，将每一帧画面中的人物和产品分别“抠出”，生成独立的人物参考图和产品参考图。随后，通过一个严格的验证模块过滤掉人物姿态、产品外观与原始画面不匹配的低质量样本。

接下来的核心步骤是构建“结构视频”：使用SAM3工具获取产品在画面中的精确遮罩（即标出产品区域），用SAM3D-body模型恢复人体的三维网格模型，然后将人体网格投影到二维图像平面上，得到清晰的人体轮廓剪影，再将产品遮罩叠加进去，最终形成完整的结构帧序列。这就是双路训练中那路“X光视频”的真实来源。

经过严格的质量筛选，团队最终保留了12000条高质量的视频片段。每条片段都包含配对的彩色视频、结构视频、手部和面部边界框标注，以及人体剪影遮罩。测试集则包含50条片段，覆盖了多种产品类别和未见过的的人物身份，以确保评估的全面性和可靠性。

七、AI如何协同处理“历史”、“现在”与“参考”？

在技术细节层面，研究团队还解决了一个容易被忽视的关键问题：如何让AI模型同时“理解”并区分多种时间角色不同的输入内容——包括历史运动帧、当前待生成帧、静态参考图像，以及双路视频之间的空间对应关系？

答案是一套名为“三维旋转位置编码”（3D RoPE）的坐标分配方案。每个输入AI模型的图像像素块都会被赋予一个三维坐标：（空间）高度、（空间）宽度、（时间）帧序号。这三个维度的坐标经过特定的数学函数编码后，AI模型便能通过计算两个像素块之间的坐标距离，来精确推断它们在时空中的相对关系。

对于彩色视频和结构视频这两路内容，团队让它们共享相同的（高度）和（时间）坐标，但在（宽度）坐标上予以区分——彩色视频使用正值坐标，结构视频使用负值坐标。这就像将两张地图并排放置：左边是彩色地貌图，右边是地形等高线图，同一地理点在两张图上的纵坐标（高度）和横轴位置（时间）完全一致，但横坐标（宽度）一正一负，使得两者的对应关系一目了然。

历史运动帧被分配了负的时间坐标，相当于在时间轴上将它们标记为“过去”。参考图（人物照和产品照）则被分配一个非常大的时间坐标（例如第30、31帧），将其推到时间轴的“远端未来”。这使得AI能够将它们清晰识别为全局的身份锚点或风格参考，而非紧邻当前帧的时序上下文。这种精心的设计让AI在处理每一帧时，既能从历史帧中获取运动连贯性，又能从远端参考图中汲取身份一致性与内容稳定性，而不会将两者混淆。

八、性能评估：CoInteract与六种前沿方法的全面对比

研究团队将CoInteract与六种现有先进方法进行了全面比较，包括AnchorCrafter、Phantom、Humo、VACE、InteractAvatar以及SkyReels-V3。所有方法均在完全相同的输入条件下（相同的人物参考图、产品参考图和语音指令）生成视频，并在同一批50条测试视频上进行客观评估。

评估涵盖了四个核心维度。在视频质量方面，使用三个指标：美观度评分（Aesthetic Score，越高越好）、画面质量评分（Image Quality，越高越好）、帧间流畅度（Smoothness，越高越好）。在人物-物品交互合理性方面，使用Gemini 3 Pro大语言模型对每段视频回答50道关于“交互是否真实合理”的是非题，得分越高说明交互越真实；同时使用DWPose模型检测手部关键点的置信度（Hand Quality，越高说明手部越清晰可信）。在参考一致性方面，分别用DINOv2模型的特征相似度衡量人物身份保留程度（DINO-ID）和产品外观一致性（DINO-Obj），并用ArcFace模型衡量面部身份相似度（Face Similarity）。在音视频同步方面，则使用口型同步置信度（Sync Confidence）进行衡量。

在这场多维度的性能比拼中，CoInteract在交互合理性（VLM-QA得分0.72）和手部质量（HQ得分0.724）两项关键指标上拔得头筹，在人物身份保留和帧间流畅度上也位居首位。在美观度评分上，Phantom和Humo方法略高，但研究团队指出，这是因为这两种方法倾向于生成视觉华丽却可能与参考图背景不符的画面，牺牲了内容忠实度以换取表面美观；而CoInteract则坚持还原参考图中的真实场景，在忠实度和视觉质量上取得了更优的平衡。

在一项由24名众包评估者参与的用户主观调研中，评估者对每组7种方法生成的视频进行盲测排名。CoInteract在物品一致性、人物和背景一致性、交互合理性三项标准上均获得了最佳的均值排名（排名数值越低越好），尤其在交互合理性上的优势最为突出，均值排名为1.79，远低于第二名InteractAvatar的3.33。

九、模块拆解：每个设计组件究竟贡献了多少？

为了验证每个设计模块的实际贡献，研究团队进行了三组消融实验，逐一“拆除”某个核心组件，观察模型性能的变化。

拆除“人体感知专家混合体”模块后，手部质量评分从0.724降至0.658，面部相似度从0.696降至0.662。这说明专家混合机制确实对手部和面部的精细生成有显著贡献，且由于该模块本身设计得非常轻量，其带来的推理计算开销几乎可以忽略。

拆除“结构视频”这路双路训练监督后，交互合理性评分从0.72骤降至0.48，跌幅高达33%。这是所有消融实验中变化最大的一项，直接印证了“让AI同时观看X光片”这一设计对于提升物理交互合理性的核心作用。

尝试在推理阶段也保留并使用结构视频（即不丢弃）的版本，其交互合理性得分略升至0.76，手部质量升至0.738。这说明若有结构视频直接参与推理引导，效果当然会更好——但代价是推理计算量暴增至原始版本的4.13倍，实用性大打折扣。而非对称注意力机制的核心价值，正是用极小的性能损失，换取了推理阶段的零额外开销，实现了效率与效果的平衡。

在定性可视化实验中，研究团队还展示了结构视频与彩色视频在生成过程中的同步对齐效果，以及专家路由器的激活热图。热图清晰显示，路由器确实精准地将面部区域的像素块分配给了面部专家，将手部区域的像素块分配给了手部专家，而非随机分配，验证了其设计的有效性。

归根结底，CoInteract这项工作实现了一种“知行合一”的AI训练范式：它不仅让AI通过观看更多视频进行隐式学习，更是构建了一套精巧的训练机制，迫使AI在生成美观画面的同时，必须同步理解身体与物品的空间物理关系。通过“训练时看两路，推理时用一路”的巧妙思路，在保持推理效率的前提下，将AI对人体结构和物理交互的理解能力提升了一个新的台阶。

这项技术对普通用户和行业意味着什么？它意味着在未来电商直播、数字营销、产品教育演示等场景中，AI自动生成的产品演示视频将更加真实可信。仅凭一张人物照片和一张产品照片，结合语音，就能批量产出逼真、自然的带货视频，不再因诡异的手部动作或物理穿帮而“失去说服力”。当然，随之而来的，还有AI生成视频在伦理、真实性以及可能被滥用等方面引发的新问题——这或许是值得每一位行业观察者、开发者和政策制定者持续关注与深思的重要议题。

常见问题解答 (Q&A)

Q1：CoInteract生成视频为什么不需要额外准备骨架姿势图？
A：CoInteract在训练阶段会同时学习彩色视频和结构视频两路内容。结构视频（包含人体轮廓剪影和产品遮罩）所蕴含的物理交互合理性约束，已通过非对称注意力机制深度内化到AI模型的参数中。因此，在实际推理生成时，只需提供人物参考图、产品参考图和语音指令即可，无需额外准备每帧的骨架标注或姿势图，极大简化了使用流程。

Q2：专家混合模块会让CoInteract的推理速度变慢吗？
A：几乎不会。消融实验数据显示，加入专家混合模块后，推理计算量仅为不加入版本的1.04倍，增幅极小。这是因为头部、手部、基础这三个专家网络本身设计得非常轻量，其隐层维度仅为256，与整个庞大的扩散变换器主模型相比，其计算开销可以忽略不计，实现了性能提升与效率的完美平衡。

Q3：CoInteract生成的视频在手部质量上比其他方法好多少？
A：在手部质量评分（HQ，使用DWPose手部关键点检测置信度衡量）上，CoInteract得分为0.724。作为对比，其他方法中表现最接近的InteractAvatar为0.696，Humo为0.664，差距较为明显。在用户主观调研中，CoInteract在交互合理性上的均值排名为1.79（在7种方法中排名越低越好），显著优于第二名的3.33，体现了其在生成自然手部交互方面的领先优势。

来源:https://www.techwalker.com/2026/0430/3185578.shtml

上一篇：天津大学联合发布TEMPO方法解决大模型考试能力僵化问题

下一篇：原点Talk对话李一淼探讨离线AI与个人智能未来