AI聊天机器人临床推理能力能否媲美专业医生

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI聊天机器人临床推理能力能否媲美专业医生

热心网友时间：2026-05-15

转载

让计算机辅助医生做临床决策，这个想法其实不算新鲜。早些年，这类系统大多是基于人工编写的规则库在运转，比如设定一些症状识别逻辑、检查指标的阈值，或者药物之间的相互作用规则。随着人工智能技术，特别是大语言模型的快速发展，让AI参与更复杂的临床推理，自然就成了一个备受瞩目的方向。

AI聊天机器人能否像医生一样进行临床推理？

就在今年4月底，《科学》期刊上发表了一项引人关注的研究。结果显示，OpenAI的大语言模型在基于真实急诊室病历的几项临床推理任务中，表现已经超过了医生。

这个发现出现的时机很有意思。当前，医疗聊天机器人领域正处在一个争议不断的阶段：一方面，有些研究展示了它们令人印象深刻的诊断能力；另一方面，也有不少报告指出了问题，比如模型会“捏造”引用文献、给出错误建议，而且评估方式一变，结果可能大相径庭。尽管存在这些不确定性，面向医疗专业人士的AI产品已经开始进入市场试水，例如OpenAI今年就推出了面向临床医生和医疗机构的ChatGPT版本。

这次被测试的模型是o1-preview（虽然它已被更新的版本取代），但其表现足以让研究团队感到振奋。他们建议，应该在真实病例中进一步测试大语言模型，并探索在特定的诊断决策节点，引导医生向AI寻求“第二意见”的工作流程。

在纽约伊坎医学院从事AI医学影像研究的Mickael Tordjman对此表示认同，他认为现在正是将研究焦点转向真实世界应用的好时机。“我们确实需要更多来自前瞻性临床试验的证据，”他指出，“更新的模型，或者专门为医疗用途训练的模型，或许能带来更好的表现。”

光环下的隐忧：准确性与“幻觉”并存

尽管《科学》论文的作者们在发布会上对AI的医疗潜力表达了乐观，但他们同样强调了当前大语言模型的重要局限，并对研究结果可能被误读感到担忧。共同作者、哈佛医学院的AI研究者Arjun Manrai明确表示：“我们的研究结果绝不意味着AI将要取代医生。”

另一位共同作者、波士顿Beth Israel Deaconess医疗中心的医学教育者Adam Rodman也表达了类似的谨慎：“别误会，这结果真的很酷。但这些发现未来会被如何解读和使用，确实让我有些不安。”

这种不安并非空xue来风。其他研究医疗聊天机器人的学者近期也发现了质疑其可信度的理由。例如，有研究指出，几款主流聊天机器人在回答开放性健康问题时，近一半的回答存在缺陷——它们会自信地编造信息和文献引用，而且无论答案正确与否，都采用同样笃定的语气。

“这些模型每天都在被使用，其中蕴含的风险既没有被充分量化，也没有得到有效控制。”另一支哈佛研究团队的成员Arya Rao这样评价。

面向医生：一个不同的挑战场景

目前，大量研究集中在聊天机器人回答普通公众的健康咨询上，也就是人们在犹豫要不要去看医生时可能会问的问题。然而，将大语言模型作为面向医生的临床决策支持工具，则是完全不同的任务场景。医生更清楚该提供哪些关键信息来帮助模型做出准确判断，也具备识别明显错误的专业知识背景。

但即便如此，识别AI的“幻觉”内容对医生来说依然是一大挑战。“无论对错，模型的表现都同样令人信服，”Rodman指出，“所以，我们必须找到那些错误率最低的应用流程。”

有趣的是，即便是同样聚焦于医生端临床推理任务的研究，也可能因为对“成功”的定义不同，而得出截然不同的结论。就在《科学》论文发表后不久，4月13日发表于《JAMA Network Open》的一篇论文中，Rao及其同事对21个大语言模型进行了类似的测试。和《科学》研究一致，许多模型在给出最终诊断上表现良好，包括o1系列的模型。然而，Rao团队在“鉴别诊断”这项任务上，给大语言模型打了较低的分——因为他们采用了不同的评估体系。

所谓鉴别诊断，就是要求列出患者症状所有可能的病因。举个例子，如果一个模型在7个可能的诊断中正确列出了6个，按照某些评分标准，这可以算作86%的高准确率；但在Rao的评估体系里，这可能被判定为一次不可接受的失败。

你看，问题就在这里。目前，业界还没有一个统一的“评分标准”。“这仍然是一项进行中的工作，”Tordjman坦言，“目前并没有评估大语言模型临床推理能力的完美方法。”

真实世界的测试与未来的协同

在《科学》的研究中，团队使用了多组医学案例集来测试OpenAI的模型，这些案例类似于高难度的开放式医学考试题。给模型的指令有时很长，里面混杂着可能是无关信息，也可能是关键诊断线索的细节。

“我们进一步证明了，这种优异表现同样适用于真实世界场景。”Rodman说。研究的一部分使用了76个真实的急诊就诊案例。他们要求大语言模型和医生在诊疗的不同阶段（患者刚抵达时、医生完成初步评估后、转入其他科室后）分别给出诊断。随着获得的信息越来越多，无论是AI还是人类，准确率都有所提升，但大语言模型始终保持着微弱的优势。例如，在最终检查点，模型给出“精确或非常接近”诊断的比例达到了82%，而参与对比的两位医生则分别为79%和70%。

我们熟知的大语言模型诞生至今还不到十年，整个领域正以惊人的速度演变。主流模型的迭代速度，已经超过了医学研究和学术文献通常的发表节奏。与此同时，关于监管、责任归属等一系列关键问题，仍然悬而未决。鉴于无数患者和医生已经在日常中开始使用这些工具，研究人员向媒体表示，迫切需要对它们的优势、风险以及最佳使用方式进行更深入的了解。

尽管将AI表现与人类医生进行比较对研究很重要，但Manrai认为，更关键的问题在于医生未来将如何实际使用这项技术。“我们必须迅速从‘AI对战人类’的思维框架里跳出来，”他强调，“转而思考人类如何与这项技术协同互动。”

面对诸多尚未解答的问题，哈佛的Rao表达了她的看法：技术发展的速度如此之快，医学界无法袖手旁观。“保持谨慎和持续评估固然重要，但或许，推动负责任的创新更为迫切，”她说，“我们不想给这项技术泼冷水——我们认为，负责任的创新才是正确的方向。”

Q&A

Q1：大语言模型在临床推理方面表现如何？

根据2025年4月发表于《科学》期刊的研究，OpenAI的o1-preview模型在基于真实急诊室病历的多项临床推理任务中超越了医生。在最终诊断节点，该模型给出精确或接近正确诊断的比例为82%，两位医生分别为79%和70%。随着诊疗过程中信息量的增加，模型与医生的准确率均有提升，但模型始终保持领先。

Q2：评估大语言模型临床推理能力有没有统一标准？

目前尚无统一的评估标准。不同研究团队采用不同评分体系，可能导致结论差异显著。例如，在鉴别诊断评分上，同样是7个可能诊断中答对6个，有的体系评为86%，有的则判定为不可接受的失败。研究人员普遍认为，建立标准化评估方法仍是一项亟待完成的工作。

Q3：大语言模型在医疗应用中有哪些主要风险？

主要风险包括：模型可能产生“幻觉”，即捏造信息或引用文献，且无论对错均以自信语气呈现，医生难以察觉；近半数健康问题回答存在缺陷；此外，监管与责任归属问题尚未明确。研究人员强调，相关风险目前既未被充分量化，也未得到有效控制，需要通过前瞻性临床试验进一步验证。

来源:https://ai.zhiding.cn/2026/0515/3187135.shtml

上一篇：大模型调用成本太高？教你节省90%费用的实用方法

下一篇： MCP与A2A协议：AI Agent互联的TCP/IP标准时刻