王小川谈AI医疗三大刚性要求通用模型为何难以达标

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

王小川谈AI医疗三大刚性要求通用模型为何难以达标

热心网友时间：2026-05-26

转载

5月26日，清华大学“AI医疗新范式”学术论坛迎来重磅发布：百川智能正式推出新一代医疗大模型Baichuan-M4及其应用产品——AI家庭医生“百小医”。此次发布并非简单的产品亮相，其背后有坚实的性能数据作为支撑。最新评测结果显示，Baichuan-M4在HealthBench、HealthBench Hard、HealthBench Professional三大国际权威医疗评测基准中，均取得全球第一的综合排名，整体表现超越了GPT-5.5、Opus 4.7、DeepSeek-V4-Pro等主流通用大模型。

王小川：AI进入医疗有3条刚性要求通用模型一条都不达标

那么，一款专为医疗健康场景深度定制的大模型，需要攻克哪些核心难题？根据百川智能披露的技术路径，Baichuan-M4主要致力于在三个关键能力上实现突破。

首要目标是实现“低幻觉”。在医疗诊断与咨询中，信息的准确性关乎生命健康，绝不能出现虚构或误导性内容。Baichuan-M4采用了一套原创的“事实性感知强化学习”算法体系，将模型在无人工干预情况下的“事实性幻觉率”显著降低至3.3%。这一数据表明，模型生成虚假或未经证实信息的概率已被控制在极低范围。

其次是构建“强循证”能力。医学决策必须建立在科学证据与规范临床路径之上，而非主观推断。为此，研发团队联合临床专家，将大量权威医学指南与诊疗规范，拆解为超过1000条“原子化”的临床决策路径。所谓“原子化”，是指将复杂的诊疗流程分解为最小、可执行、无歧义的步骤单元。这些路径并非由机器自动生成，而是由资深临床专家参与定义、校验与审核，确保模型的每一步推理都严格遵循既定的医学逻辑与标准。

最后是提升“会提问”的深度问诊能力。精准的诊断往往始于系统而深入的病史采集。Baichuan-M4在主动问询、追问澄清等交互能力上，据评估显著优于通用大模型。此外，该模型具备超长上下文记忆能力，能够持续记录并关联患者跨越数月甚至数年的健康信息变化，这为长期慢性病管理、健康趋势跟踪与个性化健康干预提供了可靠的技术基础。

王小川：AI进入医疗有3条刚性要求通用模型一条都不达标

论坛中，百川智能创始人兼CEO王小川在演讲中指出了当前AI医疗面临的关键挑战。他强调，医疗场景对大模型提出了三项刚性要求：低幻觉、强循证、会提问。而目前市场上主流的通用大模型，在他看来，“没有一项能够完全满足医疗级应用的标准”。

他引用相关研究数据进一步说明：在开放域医疗问答测试中，约有50%的通用模型回答被专家评估为“存在事实性或逻辑性问题”；在需要鉴别诊断的复杂临床场景下，模型的错误率普遍超过80%。更值得注意的是，当真实用户（非专业人员）直接使用这些模型进行健康咨询时，其回答准确率会从实验室受控环境下的94.9%骤降至34.5%。这种巨大的性能落差，深刻揭示了通用模型在严肃、高风险的医疗健康场景中存在的局限性与适配难题。

因此，王小川明确指出，AI若想真正深入医疗核心环节（如辅助诊断、治疗建议、健康管理），不能仅仅依赖于对通用模型的简单微调或场景适配，而必须从底层架构开始，构建专为医疗设计的“医疗增强型大模型”。这条技术路线虽然研发门槛更高、投入更大，但无疑是实现安全、可靠、可信赖的医疗人工智能的必然路径。

来源:https://tech.ifeng.com/c/8tRQ5lT0n1N

上一篇： OpenAI总裁亲述奥特曼被罢免当天辞职内幕

下一篇： Meta裁员幸存者自述士气低落如何走出职场低谷