医疗视频理解大模型开源精标测试集与评测平台发布

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

医疗视频理解大模型开源精标测试集与评测平台发布

热心网友时间：2026-05-18

转载

手术视频的“黑盒”，终于被一脚踢开了。

最近，GitHub和Hugging Face社区悄然上线了一个堪称医疗AI领域的“重磅冲击波”——全球规模最大、性能最强的医疗视频理解大模型uAI Nexus MedVLM（元智医疗视频理解大模型），宣布开源。

最令人惊讶的是，这个模型是真的能“看懂”手术。其相关论文已被CVPR 2026收录，研发团队还同步开源了一套包含6245个视频-指令对的标准测试集。这意味着，长期以来缺乏统一评测标准的医疗视频理解领域，终于有了一把“公共标尺”。如此大规模、高质量医疗视频数据的开源，在业内尚属首次。

实测表现：专业领域的“降维打击”

先来看看uAI Nexus MedVLM的基本面：它汇聚了超过53万条视频-指令数据，提供4B和7B两种参数规模，单张显卡即可部署。更重要的是，它整合了8个专业医学数据集，覆盖内镜、腹腔镜、开放手术、机器人手术、护理操作等几乎所有主流手术场景。

那么，它的实际表现究竟如何？

其演示界面设计得非常友好，核心模块清晰，支持直接上传手术视频文件进行测试。

我们可以使用预置的腹腔镜胆囊切除术视频，从三个核心临床维度进行测试，并与GPT-5.4、Gemini-3.1等通用大模型进行对比。结果堪称“碾压”。

在手术安全评估任务上，uAI Nexus MedVLM的准确率达到89.7%。相比之下，GPT-5.4仅为16.4%，Gemini-3.1为24.2%，某国产大模型为30.9%。也就是说，其准确率是GPT-5.4的近5.5倍。

在时空动作定位任务上，其mIoU指标是Gemini-3.1的3.2倍，是GPT-5.4的47倍。在视频报告生成任务上（5分制），它拿到了4.24分，而其他模型均在4分以下。

经过MedGRPO强化学习优化后，相比基座模型，其器械定位能力提升了14%，手术步骤识别能力暴涨52%，手术描述质量提升16%到25%。

该模型覆盖了视频摘要、关键安全视野评估、下一步操作预测、技能评估等8个核心任务，在每一项上的表现均超越了通用大模型。

定性测试的结果同样震撼。例如，给出一段标记了绿色边界框的手术视频，并提问：“请描述0.0秒时边界框内物体的状态，以及在0.0～29.0秒时间段内的操作。”

标准答案是：“钳持续夹持并将胆囊向手术视野的左上方牵拉，提供反向牵引和暴露。”GPT-5.4只能给出笼统描述，未能识别具体器械；Gemini-3.1则错误识别为“电凝钩”；某国产大模型无法识别正确步骤。只有uAI Nexus MedVLM给出了接近标准答案的专业描述：“位于左上方的抓钳持续向上并朝中央牵引胆囊，保持张力并为钩子暴露分离平面。”

再看一个温和的示例：一段护士为患者监测生命体征的视频。模型需要完成“时间动作定位”任务，即回答“脉搏测量动作发生在什么时间？”标准答案是46.0-61.8秒。模型给出的预测是43.0-65.0秒，误差在数秒之内，且正确答案完全落在预测区间内。