哈佛研究AI急诊诊断准确率达67% 超越资深医生但取代尚早

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

哈佛研究AI急诊诊断准确率达67% 超越资深医生但取代尚早

热心网友时间：2026-05-17

转载

急诊室，这个与时间赛跑的战场，刚刚见证了一场足以重塑医疗未来的关键对决。其结果，或许将深刻影响未来医疗决策的模式。

近期，哈佛大学医学院与贝斯以色列女执事医疗中心在权威期刊《科学》上联合发表了一项突破性研究。该研究将OpenAI先进的o1推理模型置于最真实的急诊场景中，与两位资深人类内科主治医生展开了一场双盲对比测试。测试基于76名真实患者的原始、未经处理的电子病历进行。

诊断结果对比令人瞩目：在信息最有限、时间最紧迫的急诊分诊环节，o1模型的诊断准确率达到了67.1%，而两位人类医生的准确率分别为55.3%和50%。

差距不仅体现在诊断上。在制定后续治疗与管理方案的评估中，o1模型获得了89%的高分。相比之下，人类医生在借助传统医学资源辅助后，得分中位数仅为34%。

这绝非一次简单的模拟考试，而是对真实世界临床决策能力的严苛检验。研究团队未对原始病历数据进行任何清洗或美化，AI面对的就是急诊室中常见的凌乱、不完整且充满干扰信息的真实记录。更具说服力的是，后续的盲审结果显示，资深评审医生几乎无法准确区分哪些诊断来自AI，哪些出自人类同行之手。

论文通讯作者、哈佛医学院AI实验室负责人Arjun Manrai对此评价：“我们几乎在所有基准测试中都验证了这个AI模型，它的表现超越了此前所有的模型和医生基线水平。” 这句话，或许正拉开了一个医疗AI新时代的序幕。

真实战场：信息匮乏时的决策优势

这项研究最核心的价值，在于它精准击中了急诊医学的痛点：如何在信息极度匮乏的初期做出关键且正确的判断。研究特别对比了三个临床决策节点——患者刚入院的急诊分诊、医生首次接诊、以及决定是否收治入院或转入ICU时。

数据显示，随着获取的临床信息逐渐增多，AI和人类医生的诊断表现均有提升。但恰恰在信息最少的“黄金前几分钟”，AI展现出了最显著的优势。这个阶段，患者生命体征可能尚未稳定，实验室检查结果也未回报，医生必须在碎片化信息中进行快速推理。而AI模型似乎更擅长在这种高度不确定性的环境中，高效地串联起有限的线索，形成早期鉴别诊断。

到了决定患者是否入院的阶段，o1的准确率上升至81.6%，两位医生也分别提升至78.9%和69.7%。这一趋势揭示：AI在辅助人类医生处理海量杂乱信息、并快速生成初步诊断列表方面，具有巨大的应用潜力。

医生的反驳与AI的盲区

研究结果公布后，也引发了临床一线，尤其是急诊科医生的广泛讨论与质疑。有急诊医生指出，研究对比的对象是内科医生，而非经过急诊医学专科训练的医生，其可比性有待商榷。

更重要的是，急诊医学的首要目标并非立即给出最终确诊，而是迅速识别并处理那些可能立即危及生命的紧急状况。一位经验丰富的急诊医生走进抢救室，通过观察患者的面容、肤色、呼吸模式、疼痛反应等大量非文本、非结构化的信息，能在瞬间形成至关重要的“临床直觉”。这种基于成千上万次临床 encounters 所积累的综合判断与模式识别能力，是目前任何纯文本AI模型都难以复制的核心能力。

研究团队对此也有清醒的认识。Manrai承认，团队正在积极探索AI处理医学影像、语音等多模态信息的能力，并看到了快速进展，但距离全面的临床落地应用仍有很长距离。当前的AI还“看不见”患者苍白的脸色，“听不见”痛苦的呻吟，而这正是人类医生不可替代的价值所在。

历史的教训：从“取代”到“增强”

关于AI是否会取代医生的讨论，历史上已有深刻的教训。早在2016年，AI先驱Geoffrey Hinton曾预言，深度学习将在五年内超越放射科医生，甚至建议停止培训放射科医生。

然而近十年过去，现实走向了相反的方向。以梅奥诊所为例，其放射科医生团队规模自2016年以来增长了超过50%。AI并未取代医生，反而因为让医学影像的解读变得更高效、更可及，从而催生了更大的市场需求。这正契合了经济学中的“杰文斯悖论”——技术进步提升了资源使用效率，反而可能导致其总消耗量增加。

Hinton后来也修正了自己的观点，认为未来将是“AI与放射科医生组合”协同工作的模式。哈佛这项新研究的作者们显然汲取了这一历史经验。他们反复强调，研究的核心发现并非“AI可以替代医生”，而是“AI在有限信息下的临床推理能力，已经达到了值得进行严格临床试验与评估的水平”。

共同通讯作者Adam Rodman说得更为直白：“目前，AI诊断缺乏任何正式的医疗问责框架。患者在最危急的时刻，需要的始终是一个有温度、能共情的人来引导他们度过生死决策，面对艰难的治疗选择。”

权力重组：走向三方共治的新范式

那么，这项研究真正预示着什么？或许并非简单的“谁胜谁负”，而是医疗决策的权力结构正在发生一场静默而深刻的重组。

数据显示，AI在临床中的应用正在快速渗透。超过80%的美国医生已在职业中使用AI工具，其中17%用于辅助诊断，更有20%的临床医生曾向大语言模型寻求过“第二诊疗意见”。

将这些数据与哈佛的研究结果叠加，一个清晰的未来图景逐渐浮现：传统的“患者-医生”二元决策模式，正在向“医生-患者-AI”三方协同协作的新范式演进。

未来的急诊室工作流程可能演变为：患者抵达后，AI系统率先快速扫描电子病历，生成初步的鉴别诊断列表与风险评估报告；接诊医生则结合自身的临床观察、体格检查及与患者的深度沟通，对AI的建议进行审核、修正并做出最终决策；与此同时，患者本人也能在更透明、更充分的信息支持下，更深入地参与自身治疗方案的讨论。

Rodman预测，未来的医疗任务将分化为三类：一部分人类持续做得更好，一部分AI持续做得更好，而大部分复杂任务则需要人机紧密协作以实现能力增强。这很像自动驾驶的分级概念：目前医疗AI可能处于L2（辅助决策）向L3（条件自动化）过渡的阶段。它在“文本信息世界”里已展现出强大实力，但在融合了视觉、听觉、触觉及复杂人际互动的完整临床场景中，仍需人类医生的感官、直觉与伦理判断作为关键的“安全冗余”。

悬而未决的核心：责任与依赖

在所有乐观的展望背后，一些至关重要的问题依然悬而未决，首当其冲的便是责任界定。

如果AI辅助诊断出现误诊，责任链条将异常复杂——责任在于采纳建议的执业医生、开发算法的AI公司，还是引入该系统的医院管理层？反之，如果医生否决了AI给出的正确建议并导致不良后果，医生是否会因为“忽视了AI的警告”而承担更重的法律责任？目前，全球范围内尚未建立起成熟、统一的AI医疗问责与监管框架。

另一个潜在风险是“自动化偏误”及人类医生的能力退化。当医生习惯于依赖高准确率的AI输出时，其独立的临床思维与推理能力是否会像长期依赖GPS导航的司机一样逐渐生疏？如何确保AI工具是“增强”而非“替代”人类的专业判断，是设计任何临床辅助决策系统时必须面对的伦理与实践难题。

哈佛的这项研究，如同一块投入平静湖面的巨石。它没有提供所有问题的答案，但它清晰地标定了一个行业拐点：AI在核心医疗推理任务上，已经超越了概念演示阶段，达到了可与人类专家同台竞技、甚至在某些关键环节表现更优的实用化水平。真正的变革，或许并非急诊室里医生数量的减少，而是医生、患者与AI，将共同组成一个更强大、但也更需要智慧与规范去驾驭的新联盟。未来的急诊室，注定是一个协同决策、人机共生的智慧战场。

来源:https://www.163.com/dy/article/KS3UUADQ0511ABV6.html

上一篇：硅基管理模式开启企业AI操作系统正式发布

下一篇： Minimax小说创作指南：如何设定人设并保持逻辑一致性