AI医生靠谱吗?《自然》研究证实:普通人上网搜索更实用
AI自身的能力与人们实际运用这些能力的效率之间,存在着一道巨大的鸿沟。
AI医生是否真的可靠?它的性能提升,难道仅仅依靠增加算力就能实现吗?今年2月10日发表在《自然·医学》上的一项新研究给出了答案,对普通大众来说,这个答案是否定的。
在该研究中,来自牛津大学等机构的科研人员招募了1298名英国参与者,让他们在10个不同的医疗场景中做出判断。例如,突发剧烈头痛该去什么医疗机构就诊,以及可能患的是什么疾病。参与者被随机分配到四个实验组:其中三个治疗组分别使用GPT-4o、Llama 3或Command R+这三种不同的大语言模型来辅助决策,而对照组则使用他们平时在家会用的任何方法,主要是互联网搜索。
当研究人员直接将医疗场景的信息输入给这些大语言模型时,它们的表现非常出色。GPT-4o在94.7%的情况下能指出至少一个相关的医学诊断,在64.7%的情况下能给出正确的医疗建议。Llama 3和Command R+的表现也大同小异。这说明它们确实掌握了大量的医学信息。
然而,当普通人使用这些相同的模型时,情况就不一样了。使用大语言模型的参与者在识别相关医学条件方面的表现变得更差,准确率只有不到34.5%。他们在判断医疗优先级方面的表现也没有超过对照组,两者的准确率均为44%左右。
换句话说,让患者自己咨询AI医生,其结果可能还不如直接上网搜索。
这一结果表明,AI本身的潜力与人类实际运用这种潜力的效率之间存在巨大落差。研究团队分析了参与者与大语言模型之间的对话记录,发现了一系列系统性的问题。首先是信息传递的不畅。大语言模型在对话中提到相关症状的比例大约在65%-73%之间,远低于它们单独工作时的表现,这说明人类患者往往没有向AI系统提供足够的信息。
超过一半的患者在最初描述症状时没有提供完整的信息。他们可能只说“头很疼”,而没有提到“突然发作”或“伴有颈部僵硬”这样的关键症状。有时候,患者会在AI的提问下逐步补充信息,但有时他们根本不补充。
研究作者们指出,相比之下,医生之所以能诊断患者,不仅因为他们知识丰富,更因为他们知道要问什么问题。一个非专业的患者可能不知道哪些症状是诊断的关键。
研究者们还发现,即使AI系统给出了正确建议,人类也不一定会采纳。参与者平均列出1.33个医学诊断作为他们的最终答案,而其准确率仅为38.7%。相比之下,大语言模型在整个对话中提及的所有诊断的正确率为34%。这意味着人类未能成功地从AI生成的多个建议中筛选出最好的那一个。
除了沟通不畅和判断失误,研究还发现了AI本身的一些问题。在一些情况下,大语言模型提供了正确的初始诊断,但当患者添加更多细节后,它反而改口提出了错误的建议。在另一些极端案例中,同一个AI对相似的症状描述给出了完全相反的建议。
比如,两名患者都描述了蛛网膜下腔出血的症状,包括突然的剧烈头痛、颈部僵硬和畏光。但AI告诉其中一个患者“躺在黑暗的房间里”休息,而另一个则建议“立即呼叫救护车”。
在人类医生的培养逻辑中,通过资格考试通常是上岗的第一步。但该研究的作者们指出,对于AI来说,考试中的成绩并不与它们在现实中表现直接相关。研究者们从医学执照考试题库中选出了与上述医疗场景相关的236道选择题让AI做,其准确率远高于在真实互动中的表现。在一些场景中,AI做题的正确率高于80%,而在患者实验中面对相同问题,准确率却低于20%。
研究团队还测试了用AI分别模拟患者和医生进行对话是否能反映真实情况。这是一种在不少研究中很流行的基准测试,不少人认为其结果应该比单纯的选择题更能反映真实互动。但该研究的结果显示,模拟患者的表现不仅总体上优于真实用户,而且这种优势与真实用户的表现几乎没有相关性。换句话说,模拟互动无法预测真实互动会成功还是失败。
研究者们认为,两个大语言模型之间的对话往往更加结构化、信息传递更顺畅,它们知道要问什么,也知道如何有效地传达医学概念。而人类患者则带来了现实世界的复杂性:焦虑、知识不足、对症状的不同理解,以及无法预测的信息共享模式。
这项研究触及了AI医疗中的一个根本问题——对于大语言模型来说,医学知识的广博性和准确性并不是在真实医疗场景中成功的充分条件。现实世界的医疗互动涉及复杂交互,无法通过传统的医学基准测试来捕捉。
这些发现对于那些正在期待AI医疗“革命”的人来说是一个清醒的提示。大语言模型或许永远不会取代医生的临床判断,但它们或许能在更加审慎、透明的设计下,成为有用的决策辅助工具——前提是我们首先解决好人与机器之间的沟通问题。
参考文献:
Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026).
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
曹操出行耀出行成为濮院电竞节官方指定高端出行服务商
曹操出行旗下高端品牌“耀出行”成为2026濮院电竞节官方指定高端出行合作伙伴。赛事期间,耀出行为全球选手、解说及嘉宾提供贵宾级出行服务,通过精准路线规划避开拥堵与人群。服务依托极氪009豪华商务车的静音私密座舱,以及双语管家、无缝接驳等专业软性支持,确保贵宾全程尊享体验。
Akamai收购LayerX强化网络安全布局五年完成四项战略并购
Akamai计划收购以色列企业浏览器安全公司LayerX,以扩展其安全边界至浏览器层面,从而有效管控员工使用AI工具等行为。LayerX兼容主流浏览器,兼顾安全与体验。这是Akamai五年内在特拉维夫完成的第四项网络安全收购,旨在整合技术构建覆盖用户、应用和基础设施的AI安全管控体系。
特斯拉德州测试跑道曝光 Roadster新车发布时间引关注
近日,特斯拉得克萨斯州超级工厂的一项新基建进展引发行业关注:厂区外围正在加速建设一条全新的专用车辆测试跑道。从已披露的现场信息来看,这条跑道并非普通厂区道路,其整体规格与布局设计均指向更高阶、更专业的工程验证用途。 根据最新流出的航拍影像,该测试跑道目前已初具规模。其规划清晰,路面铺设与附属设施完备
手动挡汽车为何逐渐消失 驾驶环境变化让多数司机难以适应
你是否注意到,如今道路上手动挡车型的身影正逐渐稀少?在新车市场中,自动挡几乎已成为标准配置。许多人将其简单归结为“手动挡技术落后”,然而背后的原因,远比这更为复杂。 相比之下,自动挡的操作逻辑则直观许多。只需挂入D挡,车辆便能平稳起步与行驶,驾驶者完全无需关注离合器踏板与结合点。尤其在拥堵频繁的城市
苹果自研基带2026年启用 iPhone 18系列将全面搭载
苹果公司正加速推进其核心供应链的自主化战略,并已进入关键实施阶段。综合多方行业信息,苹果计划于2026年推出的iPhone 18系列所有机型,将全面搭载其自主研发的调制解调器芯片。此举标志着苹果将结束在手机核心通信组件上长期依赖外部供应商的历史。业界与消费者共同关注的核心在于:这一自研基带的集成,能
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

