新闻分析｜理论知识不输专家，AI为何仍不能替代医生

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

新闻分析｜理论知识不输专家，AI为何仍不能替代医生

热心网友时间：2026-04-21

转载

新闻分析｜理论知识不输专家，AI为何仍不能替代医生

头痛是不是脑梗的前兆？咳嗽要不要拍个片子？体检报告上的指标异常意味着什么？在去医院之前，越来越多人习惯先把健康问题抛给人工智能（AI）。输入症状、上传报告，几秒钟后，一份条理清晰、看起来相当专业的分析就出现在屏幕上。对不少人来说，AI俨然成了一个“24小时在线”的医学咨询窗口。但这真的意味着，AI已经会看病了吗？

新闻分析｜理论知识不输专家，AI为何仍不能替代医生

标准化测试的“高分选手”

先来看一组数据。德国马尔堡大学等机构团队近期发布的一项研究显示，在针对急性肾损伤的标准化知识测试中，多款AI大语言模型的平均得分，竟然超过了参与测试的医学专业人员。

这项研究选取了13个公众可自由使用的大语言模型，与123名志愿者进行“同台竞技”。这些志愿者来自2025年德国内科学会年会的参会人员，其中不乏内科执业医生。测试采用同一套急性肾损伤知识问卷，包含两个模拟病例和15道选择题。结果很有意思：接受测试的大语言模型平均答对了约90%的题目，多个模型甚至拿到了满分；相比之下，志愿者的答题正确率约为48.7%，而且人类的答题时间明显更长。

研究人员据此认为，在标准化测试这种特定情境下，大语言模型已经能够相当可靠地调取并应用符合医学指南的知识，展现出为临床工作快速提供事实性信息的潜力。无独有偶，年初发表于《Cureus》医学科学杂志的另一项研究也指出，一些大语言模型在美国医师资格标准化测试中的表现，已经可以比肩专业人员。在105道选择题的测试中，GPT-4 Turbo模型的正确率高达90.99%。

临床过程的“推理短板”

然而，标准化测试中的高分，真的能等同于真实的临床诊疗能力吗？答案恐怕是否定的。问题的核心在于，看病远不止是回答一套标准化的选择题。

美国麻省总医院布里格姆医疗中心等机构的研究人员，最近在《美国医学会杂志·网络开放》上发表的研究，就点出了AI的“阿喀琉斯之踵”：大语言模型在临床推理方面的能力仍然存在明显短板。研究发现，在相关数据齐全的情况下，这些模型通常能给出比较准确的最终诊断；但在病例早期、信息仍然匮乏时，它们往往不具备关键的“鉴别诊断”能力。

为了还原真实的临床过程，这项研究采用了分步输入信息的方式，评估了21个大语言模型对29个标准化临床案例的诊断情况。研究人员先输入患者年龄、性别和症状等基础信息，再逐步补充体格检查和实验室结果。每个阶段模型的表现都由医学专业学生进行评估打分。

结果显示，所有受测试模型在超过80%的情景下，都未能在信息尚不完整时给出恰当的鉴别诊断。也就是说，它们无法准确判断最可能的病因，或有效排除严重疾病，从而为下一步的检查和排查提供可靠方向。

“鉴别诊断是临床推理的核心，也是目前AI尚无法复制的‘医学艺术’的基础。”研究论文通讯作者马克·苏奇道出了关键。现阶段AI在临床医学中的真正潜力，在于辅助而非取代医生的推理过程。

这一点也得到了其他研究的印证。哈佛大学医学院和斯坦福大学等机构年初在《自然-医学》杂志发表的研究显示，大语言模型在标准化医学考试中表现优异，但一旦切换到基于真实医患对话记录进行诊断时，就显得明显吃力。研究通讯作者普拉纳夫·拉杰普尔卡尔教授解释说，医疗对话是动态的，需要在恰当时机提出恰当问题，并将零散信息整合起来进行症状推理，这种独特挑战远非答题可比。“当场景从标准化测试转向自然对话时，即使是最先进的AI模型，诊断准确性也会显著下降。”

医生主导下的人机协作

既然AI目前还无法独立胜任诊疗工作，那么它应该以何种身份进入医疗实践？未来的方向，或许不在于“替代”，而在于“协作”。

在近期开幕的2026年德国内科学会年会上，德国杜伊斯堡－埃森大学人工智能医学研究所所长延斯·克莱西克指出，随着AI发展，医生与计算机的协作正在加强。数字系统不再仅仅是被动提供支持的工具，而是通过病例记录、协调流程等方式，更主动地介入医疗过程。“这将从根本上改变医疗服务。”他认为，要让AI真正发挥潜力，前提是拥有高质量、结构化且可互操作的数据，以及足够可靠的技术基础设施。

但必须明确的是，医生的主体责任并不会因此削弱。克莱西克强调，人的因素仍然至关重要，始终需要由具备专业能力、能够理解并合理使用AI技术的医生来推动和把关。

在医生主导下的人机协作模式，其效果已经得到研究支持。斯坦福大学等机构研究人员近期在《自然合作期刊-数字医学》上发表的一项随机对照试验显示，在经过精心设计的人机协作流程中，医生的诊断准确性可以从传统资源条件下的75%，提升至80%以上。

当然，在拥抱技术的同时，也必须警惕伴随而来的风险。美国密苏里大学医学院副教授法里斯·阿拉赫达卜提出了一个值得深思的观点：经验丰富的临床医生通常能够识别AI提供的错误建议，而医学生和年轻医生往往缺乏相应的判断力，难以识别那些细微却可能致命的错误。

更隐蔽的风险或许在于，过度依赖AI可能会在不知不觉中削弱医生的批判性思维。医生可能会将推理过程“外包”给AI。模型给出的答案越流畅、越完整、越显得正确，使用者就越可能放弃独立检索信息、批判性思考以及知识整合。长此以往，那些本应在实践中持续磨练的核心能力，将面临退化的风险。这才是我们在推进AI医疗应用时，需要时刻警醒的关键所在。

来源:https://www.163.com/dy/article/KR0116NO05346RC6.html

上一篇： Square Enix开发漫画排版AI工具，每年可节省3000工时

下一篇：机器人“自主跑”赛队数量破纪录，北斗时空智能提供关键支撑