当前位置: 首页
AI
AI聊天机器人临床推理能力能否媲美专业医生

AI聊天机器人临床推理能力能否媲美专业医生

热心网友 时间:2026-05-15
转载

让计算机辅助医生做临床决策,这个想法其实不算新鲜。早些年,这类系统大多是基于人工编写的规则库在运转,比如设定一些症状识别逻辑、检查指标的阈值,或者药物之间的相互作用规则。随着人工智能技术,特别是大语言模型的快速发展,让AI参与更复杂的临床推理,自然就成了一个备受瞩目的方向。

AI聊天机器人能否像医生一样进行临床推理?

就在今年4月底,《科学》期刊上发表了一项引人关注的研究。结果显示,OpenAI的大语言模型在基于真实急诊室病历的几项临床推理任务中,表现已经超过了医生。

这个发现出现的时机很有意思。当前,医疗聊天机器人领域正处在一个争议不断的阶段:一方面,有些研究展示了它们令人印象深刻的诊断能力;另一方面,也有不少报告指出了问题,比如模型会“捏造”引用文献、给出错误建议,而且评估方式一变,结果可能大相径庭。尽管存在这些不确定性,面向医疗专业人士的AI产品已经开始进入市场试水,例如OpenAI今年就推出了面向临床医生和医疗机构的ChatGPT版本。

这次被测试的模型是o1-preview(虽然它已被更新的版本取代),但其表现足以让研究团队感到振奋。他们建议,应该在真实病例中进一步测试大语言模型,并探索在特定的诊断决策节点,引导医生向AI寻求“第二意见”的工作流程。

在纽约伊坎医学院从事AI医学影像研究的Mickael Tordjman对此表示认同,他认为现在正是将研究焦点转向真实世界应用的好时机。“我们确实需要更多来自前瞻性临床试验的证据,”他指出,“更新的模型,或者专门为医疗用途训练的模型,或许能带来更好的表现。”

光环下的隐忧:准确性与“幻觉”并存

尽管《科学》论文的作者们在发布会上对AI的医疗潜力表达了乐观,但他们同样强调了当前大语言模型的重要局限,并对研究结果可能被误读感到担忧。共同作者、哈佛医学院的AI研究者Arjun Manrai明确表示:“我们的研究结果绝不意味着AI将要取代医生。”

另一位共同作者、波士顿Beth Israel Deaconess医疗中心的医学教育者Adam Rodman也表达了类似的谨慎:“别误会,这结果真的很酷。但这些发现未来会被如何解读和使用,确实让我有些不安。”

这种不安并非空xue来风。其他研究医疗聊天机器人的学者近期也发现了质疑其可信度的理由。例如,有研究指出,几款主流聊天机器人在回答开放性健康问题时,近一半的回答存在缺陷——它们会自信地编造信息和文献引用,而且无论答案正确与否,都采用同样笃定的语气。

“这些模型每天都在被使用,其中蕴含的风险既没有被充分量化,也没有得到有效控制。”另一支哈佛研究团队的成员Arya Rao这样评价。

面向医生:一个不同的挑战场景

目前,大量研究集中在聊天机器人回答普通公众的健康咨询上,也就是人们在犹豫要不要去看医生时可能会问的问题。然而,将大语言模型作为面向医生的临床决策支持工具,则是完全不同的任务场景。医生更清楚该提供哪些关键信息来帮助模型做出准确判断,也具备识别明显错误的专业知识背景。

但即便如此,识别AI的“幻觉”内容对医生来说依然是一大挑战。“无论对错,模型的表现都同样令人信服,”Rodman指出,“所以,我们必须找到那些错误率最低的应用流程。”

有趣的是,即便是同样聚焦于医生端临床推理任务的研究,也可能因为对“成功”的定义不同,而得出截然不同的结论。就在《科学》论文发表后不久,4月13日发表于《JAMA Network Open》的一篇论文中,Rao及其同事对21个大语言模型进行了类似的测试。和《科学》研究一致,许多模型在给出最终诊断上表现良好,包括o1系列的模型。然而,Rao团队在“鉴别诊断”这项任务上,给大语言模型打了较低的分——因为他们采用了不同的评估体系。

所谓鉴别诊断,就是要求列出患者症状所有可能的病因。举个例子,如果一个模型在7个可能的诊断中正确列出了6个,按照某些评分标准,这可以算作86%的高准确率;但在Rao的评估体系里,这可能被判定为一次不可接受的失败。

你看,问题就在这里。目前,业界还没有一个统一的“评分标准”。“这仍然是一项进行中的工作,”Tordjman坦言,“目前并没有评估大语言模型临床推理能力的完美方法。”

真实世界的测试与未来的协同

在《科学》的研究中,团队使用了多组医学案例集来测试OpenAI的模型,这些案例类似于高难度的开放式医学考试题。给模型的指令有时很长,里面混杂着可能是无关信息,也可能是关键诊断线索的细节。

“我们进一步证明了,这种优异表现同样适用于真实世界场景。”Rodman说。研究的一部分使用了76个真实的急诊就诊案例。他们要求大语言模型和医生在诊疗的不同阶段(患者刚抵达时、医生完成初步评估后、转入其他科室后)分别给出诊断。随着获得的信息越来越多,无论是AI还是人类,准确率都有所提升,但大语言模型始终保持着微弱的优势。例如,在最终检查点,模型给出“精确或非常接近”诊断的比例达到了82%,而参与对比的两位医生则分别为79%和70%。

我们熟知的大语言模型诞生至今还不到十年,整个领域正以惊人的速度演变。主流模型的迭代速度,已经超过了医学研究和学术文献通常的发表节奏。与此同时,关于监管、责任归属等一系列关键问题,仍然悬而未决。鉴于无数患者和医生已经在日常中开始使用这些工具,研究人员向媒体表示,迫切需要对它们的优势、风险以及最佳使用方式进行更深入的了解。

尽管将AI表现与人类医生进行比较对研究很重要,但Manrai认为,更关键的问题在于医生未来将如何实际使用这项技术。“我们必须迅速从‘AI对战人类’的思维框架里跳出来,”他强调,“转而思考人类如何与这项技术协同互动。”

面对诸多尚未解答的问题,哈佛的Rao表达了她的看法:技术发展的速度如此之快,医学界无法袖手旁观。“保持谨慎和持续评估固然重要,但或许,推动负责任的创新更为迫切,”她说,“我们不想给这项技术泼冷水——我们认为,负责任的创新才是正确的方向。”

Q&A

Q1:大语言模型在临床推理方面表现如何?

根据2025年4月发表于《科学》期刊的研究,OpenAI的o1-preview模型在基于真实急诊室病历的多项临床推理任务中超越了医生。在最终诊断节点,该模型给出精确或接近正确诊断的比例为82%,两位医生分别为79%和70%。随着诊疗过程中信息量的增加,模型与医生的准确率均有提升,但模型始终保持领先。

Q2:评估大语言模型临床推理能力有没有统一标准?

目前尚无统一的评估标准。不同研究团队采用不同评分体系,可能导致结论差异显著。例如,在鉴别诊断评分上,同样是7个可能诊断中答对6个,有的体系评为86%,有的则判定为不可接受的失败。研究人员普遍认为,建立标准化评估方法仍是一项亟待完成的工作。

Q3:大语言模型在医疗应用中有哪些主要风险?

主要风险包括:模型可能产生“幻觉”,即捏造信息或引用文献,且无论对错均以自信语气呈现,医生难以察觉;近半数健康问题回答存在缺陷;此外,监管与责任归属问题尚未明确。研究人员强调,相关风险目前既未被充分量化,也未得到有效控制,需要通过前瞻性临床试验进一步验证。

来源:https://ai.zhiding.cn/2026/0515/3187135.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
豆包AI中英互译使用技巧与详细步骤

豆包AI中英互译使用技巧与详细步骤

豆包AI翻译效果不佳常因使用方式不当。针对不同场景,可采用五种方法:对话模式适合灵活的口语翻译;专用工具页确保语言精准对应;浏览器助手实现网页双语对照阅读;语音输入满足实时口语转译需求;文档上传功能则能批量处理专业文件并保留格式。

时间:2026-05-15 16:25
豆包AI接口收费标准与API价格详解

豆包AI接口收费标准与API价格详解

豆包AI接口采用按量计费模式,按输入输出Token消耗实时扣费。新用户享有一次性试用额度,过期自动失效。稳定业务可购买预付费资源包以降低成本,但需注意有效期。调用受RPM和TPM配额限制,超限即触发限流。特定API采用阶梯计费,单价随日调用量增加而降低。务必关注账户余额,避免服务中断。

时间:2026-05-15 16:25
Recraft AI注册失败解决方法 账号创建与登录问题全指南

Recraft AI注册失败解决方法 账号创建与登录问题全指南

注册RecraftAI时若遇页面无响应或收不到验证邮件,通常源于网络或设置问题。可检查邮箱垃圾箱并将相关域名加入白名单,或改用Google账号授权登录以跳过验证。此外,清理浏览器缓存、禁用插件、切换网络或使用合规邮箱密码也有助于解决。还可通过“忘记密码”功能触发激活邮件。

时间:2026-05-15 16:24
腾讯元宝辅导作业实测家长分享使用体验

腾讯元宝辅导作业实测家长分享使用体验

腾讯元宝作为作业辅导工具,通过拍题答疑、作业批改、口语陪练、作文辅助和古诗文记忆五大核心功能,为家庭学习提供支持。这些功能不仅提供即时解析与批改,更注重引导解题思路、分析错误原因、纠正发音、优化表达及运用记忆法,旨在培养学习习惯与能力,而非简单给出答案。

时间:2026-05-15 16:24
OpenClaw AI文案自动生成实用技巧详解

OpenClaw AI文案自动生成实用技巧详解

使用AI生成文案时,内容质量不稳定常因提示策略与流程管控不足。可通过五步闭环方案提升:采用结构化提示明确任务;多轮迭代优化内容与事实;绑定动态数据源注入实时信息;设置人工核验确保合规安全;启用多模型协同融合优势,最终输出精编内容与详细日志。

时间:2026-05-15 16:24
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程