基于知识图谱的知识增强泛癌症问答大模型框架
大型语言模型(LLM)在生物医学领域的表现令人瞩目,但“幻觉”问题就像一根刺——模型自信满满地输出错误信息,这在严谨的医学场景中几乎是不可接受的。最近,中科院与广州国家实验室等机构联合发布了一项研究,提出了一种名为KGT(Knowledge Graph–based Thought)的框架,尝试用知识
大型语言模型(LLM)在生物医学领域的表现令人瞩目,但“幻觉”问题就像一根刺——模型自信满满地输出错误信息,这在严谨的医学场景中几乎是不可接受的。最近,中科院与广州国家实验室等机构联合发布了一项研究,提出了一种名为KGT(Knowledge Graph–based Thought)的框架,尝试用知识图谱给LLM装上“事实核查器”,效果相当惊艳。
![[论文解读]基于知识图谱的思考:一种知识增强的泛癌症问答大模型框架 - 中科院&广州国家实验室等](/uploadfile/2026/0629/0cf6facb899e4717378e427d69ef3a55.webp)
摘要
背景:LLM在生物医学科学中潜力巨大,但事实性错误和“幻觉”输出是真实存在的硬伤。传统微调方法虽然能缓解问题,但训练成本高昂,还可能引发灾难性遗忘。
结果:研究开发了KGT框架,巧妙地将LLM与知识图谱(KG)结合——让模型先基于KG中的可验证信息修正自己的初步回答,从而大幅减少事实错误。这个框架适应性很强,能在多种开源LLM上顺畅跑起来。更引人注目的是,KGT能通过挖掘药物-癌症之间的潜在关联,帮现有药物找到新用途;还能通过分析生物标志物和遗传机制,辅助预测耐药性。为了验证效果,团队还基于泛癌症知识图谱构建了一个专门的问答基准——pan-cancer question answering(PcQA)。
结论:KGT显著提升了LLM在生物医学问答中的准确性和实用性。这项概念验证研究,为后续应用树立了新标杆。
关键点
- 引入了一个将LLM与KG结合的框架,从根源上提升了推理的事实准确性。
- 架构灵活,能无缝集成各种LLM,即插即用。
- 提出了生物医学领域首个基于泛癌症知识图谱的问答基准。
- 案例研究证实,该方法在药物重新定位、耐药研究、个性化治疗和生物标志物分析等方向都增强了LLM的能力。
- 与现有方法相比,性能有明显优势。
核心速览
研究背景
LLM在处理生物医学事实时,主要卡在几个点上:缺乏上下文导致理解偏差、知识储备不足、难以精准回忆具体事实。微调虽然能缓解幻觉,但成本高、还可能让模型忘记之前学的东西。已有的MedAlpaca、ChatDoctor、MedPaLM等工作,走的都是医学数据微调路线;而Chain-of-thought(CoT)提示、自动提示工程师(APE)等方法则从提示工程入手,但处理复杂问题时仍有局限。这时候,知识图谱的价值就凸显出来了。
研究方法
KGT框架的工作流程其实很清晰,分为四步:
- 问题分析:先把用户输入的自然语言问题拆解,提取出头实体名称、尾实体类型和尾实体的具体属性。
- 基于图模式的推理:基于KG的模式构建一个无向图,用广度优先搜索(BFS)找出连接头尾实体的最短路径,再通过计算查询与每条路径的相似度,选出最优的那条。
- 子图构建:根据最优路径生成查询语句,从KG中把对应的子图拎出来。
- 推理与输出:在子图上做关系链和属性的推理,最终输出自然语言答案。
针对多跳问题,框架有两种处理方式:一种是间接关系推理,通过检查头尾实体之间的间接关系推断未知关系;另一种是中间实体推理,沿着从头尾实体到中间实体的路径,进一步锁定目标实体。
实验设计
数据集方面,团队从SmartQuerier Oncology Knowledge Graph(SOKG)中提取了一个子图,构建生物医学KGQA基准PcQA,一共405条数据,覆盖了广泛的生物医学领域。评估标准用上了GPT-4、BERTScore和ROUGE三种评估器,分别从意义相似度、上下文语义和最长公共子序列角度打分。基线方法包括Base方法、CoT&ICL方法和KG-GPT方法,所有方法都基于Code-Llama-13B模型。此外,还把KGT套到了Code-Llama-13B、ChatGPT-3.5和Taiyi等不同LLM上做对比。
结果与分析
在Code-Llama-13B上,KGT在所有评估指标上都碾压了其他方法。具体数字很直观:KG-GPT比Base提升了15.7%的F1,而KGT直接提升了33%。跨模型对比中,KGT在Code-Llama-13B上的F1达到了86.8%,而ChatGPT-3.5的Base方法只有34.1%,CoT&ICL方法也才50.5%,Taiyi的Base更是只有19.5%——差距一目了然。消融研究更是直接拆解了各模块的贡献:去掉图模式推理(GSBI),F1下降20%;去掉问题和图模式推理(QA&GSBI),下降8.6%;去掉所有组件(QA&GSBI&SC),直接跌掉46%。
总体结论
KGT通过LLM与KG的巧妙结合,在不微调的前提下就显著提升了生物医学推理的准确性和实用性。它不仅能灵活适配多种LLM,还在药物重新定位、耐药性研究、个性化治疗和生物标志物分析这些真实挑战中拿出了漂亮的表现。案例研究进一步展示了它的落地潜力,为后续研究画了一条清晰的线。
论文评价
优点与创新
- 创新框架:KGT将LLM与KG结合,用KG里的可靠信息修正LLM的初始输出,从机制上减少事实错误。
- 强适应性:无缝集成各种开源LLM,展现了出色的灵活性和普适性。
- 新药用途发现:通过药物-癌症关联,帮现有药物找到新出路,同时通过生物标志物和遗传机制分析预测耐药性。
- 填补空白:首个生物医学KGQA基准PcQA,解决了该领域缺乏合适数据集的老问题。
- 真实案例验证:在药物重新定位、耐药性、个性化治疗、生物标志物分析等场景中,KGT都增强了LLM的能力。
- 无需微调:纯靠提示工程和上下文学习,即插即用,避免了高昂的微调成本和灾难性遗忘风险。
不足与反思
- 数据集范围有限:PcQA主要为了验证KGT有效性,数据规模不大,可能无法覆盖所有潜在应用场景。
- 缺少模糊匹配:系统目前不支持拼写容错——如果药物名称错了一个字母,KG就找不到结果。团队计划后续改进这一点。
- 临床验证不足:研究展示了技术可行性和初步效果,但并未在实际临床环境中跑通。任何临床或医疗决策,最终还是要依赖专业医护人员的判断。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:基于知识图谱的知识增强泛癌症问答大模型框架要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点百度旗下自动驾驶出行服务平台“萝卜快跑”近日在瑞士获得L4级自动驾驶出租车运营许可,覆盖瑞士东部80平方公里区域。项目已于6月1日启动路试,当前车辆配备安全员。萝卜快跑将与瑞士邮政旗下PostBus合作,以“AmiGo”品牌运营,并计划使用百度第六代自动驾驶车型ApolloRT6。官方预计面向公众
微软CEO萨提亚·纳德拉近日发出警告,指出人工智能模型大量吸收企业知识的趋势,可能导致行业核心知识资产被少数科技巨头控制。他将此与全球化初期产业外迁的影响相类比,呼吁构建更开放、分散的AI生态,让企业能继续掌控自身学习系统与专业能力。这一担忧也得到Snowflake、Box等公司高管的呼应,他们担心
电视剧《金枝》近日发布角色剧照,并成为业内首批严格按照广电演员署名新规调整演职人员排序的剧组。新规要求演员署名实行分类管理,规范使用“领衔主演”等三类头衔,并需按照姓氏笔画顺序排列。此举旨在推动行业建立更公平透明的署名秩序,减少相关争议,引导创作聚焦于作品质量本身。
6月16日,国际贵金属市场行情显示,现货黄金价格日内涨幅扩大至1%,达到每盎司4352 24美元。与此同时,现货白银价格也上涨1 53%,报每盎司71 02美元。此次金银价格的同步上扬,反映了市场情绪的变动,可能受到美元走势、宏观经济预期及避险需求等多重因素影响,为投资者提供了重要的市场动态参考。
- 日榜
- 周榜
- 月榜
热点快看
