AI医生MIRA首次实现全流程上岗
自主医疗AI实现全流程闭环,诊断准确率超越专科医生水平 导语 2026年6月17日,Nature 刊发了一项里程碑式的研究成果。海德堡大学医院的研究团队成功构建了一个名为 MIRA(Medical Intelligence for Reasoning and Action)的自主医疗AI智能体。与以
自主医疗AI实现全流程闭环,诊断准确率超越专科医生水平

导语
2026年6月17日,Nature 刊发了一项里程碑式的研究成果。海德堡大学医院的研究团队成功构建了一个名为 MIRA(Medical Intelligence for Reasoning and Action)的自主医疗AI智能体。与以往仅能提供文字建议的聊天工具不同,MIRA 是首个能够在沙盒化电子健康记录(EHR)环境中,独立完成从问诊、检查到治疗、入院全流程的AI系统。其诊断准确率超过88%,显著优于专科医生团队的78%。在468条用药医嘱中,未出现任何严重药物相互作用或剂量错误,且对所有需要住院治疗的患者识别召回率达到了100%。尽管目前仅在模拟环境中运行,但这项研究标志着AI已从辅助工具向具备执行能力的临床智能体迈出关键一步。未来,它有望将医生从重复性事务中解放出来,使其专注于更具人文价值的医疗环节。
关键词: 医疗自主智能体(Medical AI Agent)、电子健康记录(EHR)、沙盒电子病历(Sandboxed EHR)、MIRA(Medical Intelligence for Reasoning and Action)、临床全流程决策、诊断精度、医疗指南依从性、用药安全


论文题目:Nature: Towards autonomous medical artificial intelligence agents
论文链接:https://doi.org/10.1038/s41586-026-10675-5
发表时间:2026 年 6 月 17 日
论文来源:Nature
一、AI 诊疗转型困局:只会答题的大模型,做不了全流程临床执行者
当前的大语言模型(LLMs)在医疗问答、影像判读、临床推理测试中表现确实亮眼,甚至能与医生平分秋色。医疗领域也涌现出一批能检索诊疗指南、整理病历、自动生成疾病编码的辅助工具。然而,它们距离独立完成一次完整的临床接诊仍有巨大差距。
根本原因在于,绝大多数医疗AI仍停留在“被动答题者”的阶段。它们擅长回答问题,但只能处理零散、割裂的单一诊疗环节。真实医生需要做的,是在电子病历系统里持续采取一系列行动:从问诊获取病史,到开具检查、整合结果,再到制定治疗方案和安排入院,每一步都要根据最新信息动态调整决策。而现有系统大多只能完成其中某一个孤立环节,无法贯穿整个诊疗流程。
标准临床诊疗本身是一套闭环决策流程。医生依托电子健康记录(EHR)持续采集和更新患者信息,开具各种检验影像,在不断获得新证据的过程中形成并修正诊断假设,最终执行药物治疗、手术干预或住院管理。而且,这些决策最终都必须转化为电子病历系统里的结构化指令,并通过快速医疗互操作性资源(FHIR)等统一标准完成规范化记录。因此,一个真正能融入医院工作流的医疗AI,不仅要具备临床推理能力,还必须能持续调用工具、执行操作并动态调整决策——这恰恰是AI智能体(AI Agent)的技术范式。
过去也有一些研究尝试让医疗AI从“回答问题”向“采取行动”靠拢。例如,AMIE系统提升了医患对话质量,但仍局限于问诊场景,无法调取病历或开立检查;OpenAI联合企业推出的基层医疗辅助工具,虽能嵌入临床工作流,却不具备自主操作权限;基于MIMIC-IV数据集的研究开始模拟完整诊疗流程,但由于缺乏与FHIR等通用医疗体系的深度整合,也未覆盖医患沟通、入院用药核对等关键环节,最终普遍认为现有模型难以可靠地自主完成复杂病例管理。
总体而言,医疗AI领域一直存在两大核心空白。第一,缺少一个能原生嵌入现有EHR体系、真正实现端到端诊疗闭环的自主智能体。第二,没有研究系统地验证过AI在沟通、诊断、治疗、入院分流这些完整临床链路中的综合性能和安全边界。换言之,医疗AI面临的真正挑战,从来不是能否回答医学问题,而是能否在真实医院工作流中持续采取行动。
二、全新诊疗体系:MIRA让医疗AI第一次获得“行动能力”
与那些只会输出文字建议的传统医疗大模型截然不同,MIRA实现了跨越式突破。它不仅拥有专业的临床推理能力,更是首个能在标准化沙盒电子健康记录(EHR)环境中,自主完成一整套可落地诊疗操作的AI智能体。整套体系包含两大核心技术创新和一套标准化的仿真评测底座。

图1|MIRA工作流程。 MIRA是一个自主医疗AI智能体,在EHR沙盒环境中运行,利用一套工具模拟临床工作流程:它能够开具检查、综合结果并生成诊断和治疗方案,同时通过聊天与一个基于真实病例回顾性记录中记录的现病史(HPI)构建的患者AI智能体进行交互。
为填补上述研究空白,研究团队开发了MIRA自主医疗智能体,并基于MIMIC-IV数据库中500多例急诊真实病例开展了仿真对照试验。试验病种涵盖阑尾炎、胰腺炎、肺炎、胰腺癌等8类常见急诊疾病。
创新 1:沙盒隔离 EHR 运行环境,打通院内系统数据互通
以往大多数医疗AI只能输出自然语言建议,难以真正接入医院电子病历。MIRA搭建了一个独立隔离的沙盒电子病历运行环境,全面兼容FHIR交互协议和ICD、LOINC、SNOMED-CT等六大国际通用医疗编码体系。它生成的所有诊疗指令都是标准化、结构化的数据,可无缝适配遵循统一标准的院内信息系统,从而突破了传统医疗大模型“只能建议、无法执行”的局限。
创新 2:多工具联动闭环决策,复刻医师分步诊疗逻辑
MIRA内置了11类临床工具,超过85,000种可执行的临床操作。该智能体可以自主梳理完整病史、开立和解读各类检查、推导鉴别诊断、开具处方、预约手术、规划入院。与传统模型单次、碎片化的答题方式不同,这套多工具联动机制让AI能够模仿真实医师,逐步收集信息、动态调整方案,形成一条首尾贯通的完整诊疗链路。
配套仿真交互底座:保障全部试验结论客观可信
为尽可能模拟真实问诊场景并防止试验失真,研究团队还构建了一个专门的患者仿真智能体。该系统的所有回答都严格受真实现病史(HPI)约束,避免模型提前获取患者最终诊断信息,从而降低因后验信息泄露导致的性能高估风险。
大模型测试数据表明,这套仿真交互系统具有很高的稳定性。无论问题如何改写,回答内容的一致性以及与原始病历的匹配度均超过99%。即使面对诱导泄露诊断信息的对抗性提问,该患者智能体也不会提前披露患者的最终诊断结论。这为后续的人机对照实验提供了一个可信且可复现的评测环境。
严谨人机对照试验设计
研究设置了两组独立的人类医师对照组。4名持证专科医师作为高水准参照组,另外6名混合资历的团队则用于复刻全球普遍存在的德国急诊人力模式(即没有专职急诊医师,多由轮转的低年资医生接诊)。两组医师和MIRA使用完全相同的患者信息输入,然后从诊断、治疗、用药安全三个维度进行横向对比,评估综合诊疗水平。这样的设计保证了研究结果具有较高的现实参考价值和外部有效性。
三、全链路诊疗能力验证:四大环节证明MIRA实现医师级完整临床决策
过去的大多数医疗AI只能完成问诊、诊断、开药、手术建议中的某一个环节,无法连贯地走完整套诊疗流程。但在这项研究中,团队围绕临床决策链的四个核心环节——诊断、检查、治疗和安全,系统评估了MIRA的综合表现。结果显示,MIRA不仅能像医生一样连续处理急诊病例,还首次在统一的实验条件下证明,自主医疗智能体具备了完成端到端临床决策的能力。

图2 MIRA的推理轨迹。 展示MIRA在每种目标诊断下的决策路径,均以“病史”起始、以“入院”结束。粗黑线为最常见的工具转换路径,边线数字为转换频次;整体流程与人类医生的诊疗顺序高度吻合。自循环箭头表示同一工具的重复调用(如初始影像不可用时改选其他模态)
环节 1:初诊诊断 ——AI 判病准确度整体优于临床医师
先看一组数据。研究首先评估了MIRA的诊断能力。以MIMIC-IV数据库中的出院确诊结果为参考标准,MIRA在八类疾病上的平均诊断准确率达到88.9%。在进一步的人机对照实验中,MIRA在完全相同的信息条件下取得了87.8%的平均诊断准确率,显著高于持证医师的78.1%和基层轮转医师的71.1%。其中,对胰腺炎、阑尾炎的识别优势最为突出,只有胰腺癌的诊断水平与专科医师持平。即便是肺炎、尿路感染这类容易混淆的病症,其识别表现也毫不逊色于人类医师。

图3:a.左图显示基于MIMIC-IV真实数据(n=574)的总体准确率,MIRA对阑尾炎等明确疾病表现优异(148例漏诊2例);右图为匹配子集(n=311)中MIRA与医师的对比,MIRA准确率显著更高(双侧McNemar检验,P=0.000287),误差线为95%置信区间。b.以阑尾炎为例展示从病史到入院的推理轨迹,粗箭头为主要转换路径,数字为转换次数,循环为重复调用工具(全部轨迹见扩展数据图2)。c.检查选择方面,左图为相对MIMIC-IV基线(100%,n=574)的对比,右图为与医师(n=311)的对比。体格检查以柱状图显示检出比例(误差线为95%置信区间);微生物、血液及影像检查以点图显示召回率(含中位数、四分位距及须线)。显著性经McNemar检验和Wilcoxon检验评估,多重比较经Holm和Benjamini-Hochberg法校正。
环节 2:检查规划 ——AI 遵循循证逻辑,严控高价影像检查
进一步分析MIRA的决策轨迹可以发现,它开具检查的顺序与真实临床工作流高度一致,整体遵循从无创检查逐步过渡到有创干预的诊疗逻辑。与人类医师相比,MIRA的体格检查覆盖更全面,血液检验指标也更丰富。值得注意的是,虽然MIRA增加了一部分低成本的常规化验项目,但它并未表现出通过大量开单来换取更高诊断准确率的倾向。研究未观察到它过度使用CT、MRI等高成本影像检查的现象。这意味着,该自主医疗智能体没有表现出明显的过度医疗风险。此外,MIRA在核对患者居家长期用药这项任务上准确率非常高,能够快速完成药物信息的结构化整理。
环节 3:治疗干预 —— 手术、处方决策更贴合临床规范
在治疗决策环节,研究重点评估了MIRA推荐的手术和药物方案与真实临床实践之间的匹配程度。结果显示,MIRA的整体治疗方案与标准临床路径的贴合度显著高于人类医师。例如,在阑尾炎病例中,MIRA对腹腔镜阑尾切除术的推荐匹配率达到了100%。总体来看,它在外科操作推荐上的召回率明显高于医师群体。在药物处方方面,MIRA的整体诊疗规范依从性比医师高出35个百分点,尤其在补液、镇痛这类标准化的治疗场景中表现格外突出。
不过,MIRA也并非完美。与人类医师类似,它在抗生素处方上仍未达到完全符合指南的水平。这也从侧面说明,即便自主医疗智能体能力再强,关键的治疗决策仍然需要保留人工复核机制。
环节 4:用药与分流安全 —— 未发现系统性高危医疗风险
医疗AI能否最终落地,安全始终是底线。为此,研究团队从药物相互作用、肾功能剂量调整、药物过敏、QT间期延长风险、阿片类药物管控、入院分流等多个维度,对MIRA进行了系统性的安全评估。
结果显示,在56份完整病例中,研究未观察到任何高危用药错误,近500条处方信息的准确率接近满分。在入院决策方面,MIRA对肺炎、肺栓塞这类高风险患者没有出现漏收治情况,仅有少量的肺栓塞病例存在偏保守的收治倾向。此外,研究还进一步测试了性别差异、患者焦虑情绪以及语言障碍等潜在偏倚因素对模型表现的影响。结果显示,在不同干扰条件下,MIRA的诊断性能波动极小,整体表现出良好的鲁棒性和稳定性。
四、落地思考与行业展望:人机协同新模式,配套监管体系缺一不可
这项研究最重要的意义,并不仅仅是让医疗AI的诊断准确率再次提高,而是首次证明:AI不再只能单纯输出文字答疑,它已经开始具备在医院工作流中持续采取行动的能力。依托沙盒电子病历搭建的MIRA,可以独立走完急诊从问诊、判病、开检查到开药、安排入院的完整诊疗链条。在诊断、治疗、用药安全等多项表现上,它整体优于一线医护,补上了过去所有医疗大模型“只会答题、无法在院内动手操作”的关键短板。同时,MIRA主打病历内的全流程自动化,如果与擅长实时检索最新医学文献的AMIE这类工具搭配,两者可以互相补足,进一步缩小AI决策与临床标准之间的差距。
但即便实验数据表现亮眼,MIRA距离真实临床应用还有相当长的路要走。首先,整套仿真交互场景全部基于历史病历的文字搭建,现实中患者说话含糊、信息前后矛盾、遗漏关键病史的复杂情况,仿真环境无法完全复刻。其次,训练所用的MIMIC-IV数据集有流入大模型训练素材的可能性,实验测出的效果可能存在虚高。最后,也是最重要的一点,MIRA全程仅在隔离的沙盒环境中运行,从未对接过医院真实的业务系统,真实病房中各种复杂的突发状况尚未经过检验。
除此之外,当AI被赋予自主开立检查、生成处方乃至安排手术和住院的能力时,医疗系统将面临一系列全新的问题。从短期应用来看,自主医疗智能体更适合作为医师的协同助手,而非独立的诊疗主体。像药物核对、检验套餐组合、会诊文书撰写这类标准化、重复性的任务,可能成为最先落地的应用场景,从而帮助临床医生减轻繁重的文书负担。
值得注意的是,MIRA在资源使用上表现出较强的克制性。研究并未发现它通过大量增加CT、MRI或手术等高成本项目来提升诊断准确率,而主要增加的是低成本的常规血液检查。这意味着,自主医疗智能体没有表现出明显的过度医疗倾向。未来,如果进一步引入成本约束和资源优化模块,这类系统甚至有可能成为医院优化资源配置的新工具。
长远来看,自主医疗AI要规模化落地,真正的挑战已不仅仅是模型能力本身,而是责任划分和治理体系的建设。首先,人机边界必须被清晰界定。AI可以承担标准化、重复性的诊疗流程,但所有关键决策——包括最终诊断、用药方案、手术安排——都应保留医师的强制复核环节,不应允许智能体独立做出最终的医疗决策。
其次,风险管控体系需要与技术能力同步演进。针对高危药物、高价值影像检查等关键环节,医院需要建立人工复核、全流程审计和异常预警机制,确保AI的每一次诊疗行为都能被记录、追踪和解释。与此同时,行业层面也需要逐步建立统一的准入规范、数据安全标准和应急处置机制,为自主医疗智能体进入临床提供制度保障。
归根结底,当医疗AI开始从“知识工具”演变为“行动主体”时,整个医疗系统都需要重新回答一个问题:谁授权AI行动,谁监督AI行动,又由谁为AI的行动负责。只有当人机分工、风险监管和行业标准同步成熟,自主医疗智能体才有可能真正走出实验室,成为缓解医疗资源紧张、缩小区域医疗差距的重要力量。
参考文献
[1] Ferber, D., Hilgers, L., Höper, C. et al. Towards autonomous medical artificial intelligence agents. Nature (2026). https://doi.org/10.1038/s41586-026-10675-5 .
[2] 数据:https://physionet.org/content/mimiciv/2.2/
[3] 代码:https://github.com/Dyke-F/MIRA
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:AI医生MIRA首次实现全流程上岗要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点基于人工智能的室内设计与虚拟布置平台,通过上传房间照片、手绘草图或SketchUp文件,自动识别空间结构并更换风格。核心功能包括草图转逼真渲染、3D漫游视频及虚拟布置,支持多种设计风格,提升可视化沟通效率。
OctoparseCEM是AI驱动的客户体验管理平台,聚合电商、社交媒体、客服工单等多渠道反馈,通过情感分析、客户旅程映射等功能,将非结构化数据转化为可操作洞察,助力产品优化、服务提升与业务增长。
在客户关系管理领域,如何让工具更智能地辅助市场决策?Odoo CRM 近期推出的一款扩展程序,或许给出了一个令人关注的答案——它直接将 OpenAI GPT-3 5 Turbo 与情感分析能力嵌入 CRM 工作流,使营销不再仅凭经验盲目判断。 什么是 Odoo CRM OpenAI GPT-3 5
联想与Meta合作,基于Llama大模型推出面向PC的个人AI智能体AINow。该产品由杨元庆和扎克伯格共同宣布,旨在将AI与混合现实技术普及。扎克伯格强调开源Llama可让联想微调模型以优化特定场景,并称开源是最高效、可定制且值得信赖的选择。
- 日榜
- 周榜
- 月榜
热点快看
