当前位置: 首页
科技数码
默克公司新方法让AI解读细胞效率提升25%

默克公司新方法让AI解读细胞效率提升25%

热心网友 时间:2026-05-08
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最近,一项来自默克公司剑桥研究团队的工作,为单细胞生物学AI模型的训练带来了一个看似微小、实则影响深远的改进。这项研究以预印本形式发布于2026年4月29日,论文编号为arXiv:2604.27124。

研究要解决的核心问题,直指这类模型的一个基础设计:当AI“阅读”一个细胞的基因表达谱时,它如何决定哪些基因之间的关系更重要?这个决策机制,即“注意力机制”,是整个模型能否准确理解细胞身份的关键。团队发现,长期以来被默认使用的注意力方式,在处理生物数据时存在根本性的不匹配。他们转而采用另一种机制,结果不仅让模型识别细胞类型的能力提升了25%,训练速度加快了近10%,还彻底避免了训练过程中令人头疼的崩溃问题。

这不仅仅是技术指标的提升。单细胞RNA测序数据,作为现代生物医学研究的基石,其价值正通过AI模型被不断挖掘——从自动识别细胞、预测药物反应,到探索疾病机制和推动个性化医疗。为了让这项改进真正落地,研究团队还开源了一个专为生物数据设计的高效计算内核。

一、当AI学会“阅读”细胞:背景与挑战

要理解这项工作的价值,得先看看这类模型通常是怎么工作的。

可以把细胞想象成一个极其复杂的微型工厂,基因就是各个车间的开关。单细胞RNA测序技术,能为我们拍下海量细胞在某一时刻的“工作快照”,记录下每个细胞里哪些基因正在活跃、活跃程度如何。

AI基础模型的任务,就是把一个细胞的基因表达情况当成一段“文字”来解读——每个基因是一个“词”,整个细胞的基因组合成一句“句子”。通过在海量数据中学习,模型试图理解基因间的协同关系,从而学会区分不同类型的细胞。其底层核心,与ChatGPT等大语言模型一样,都依赖于“自注意力机制”。

但问题在于,生物数据和文本数据有个本质区别:细胞的“句子长度”千差万别。不同细胞表达的基因数量,可能从几百个到一万七千多个不等。这就好比有的句子只有三个字,有的却长达一万七千字。研究团队分析了包含1.3亿细胞的CellxGene数据集,发现如果设定一个2048个基因的阅读窗口,那么43%的细胞信息会被直接截断。要想覆盖96.6%的细胞,窗口至少需要扩大到8192个基因。

此外,生物序列的处理必须“一人一档”,无法像文本那样把短句拼接成长文来凑数。这导致在批量处理时,计算资源被大量的“空白填充”严重浪费。

如何高效处理这些长短不一的长序列,并避免计算浪费,正是这项研究瞄准的核心靶点。

二、注意力机制的“竞争性”困境:为什么传统方式在生物数据上表现不佳

那么,传统的注意力机制到底出了什么问题?

目前主流使用的是“softmax注意力”。不妨用一个课堂场景来理解:假设一位老师的注意力总量是100%,他要分配给100个学生(代表100个基因)。如果老师把60%的注意力给了第一排的学生,那么剩下的40%就必须分给其他99人。这是一个典型的“零和游戏”——关注度此消彼长。在数学上,softmax会将所有注意力分数归一化,总和必须为1。

这套逻辑在语言处理中通常可行,但在基因调控的世界里,却有些水土不服。现实中,一个基因往往同时受到多个转录因子(可以理解为基因的“调控开关”)的协同作用,这些关系是并行且独立的,而非互相竞争。用竞争性的注意力来模拟这种并行协作,就像试图用一座独木桥来承载一条八车道高速公路的流量,结构上就不匹配。

更棘手的是,当序列长度达到几千甚至上万个基因时,softmax注意力容易出现“注意力熵坍缩”——模型的注意力会极端地集中在少数几个基因上,其他基因几乎被完全忽略。这种极端集中会导致训练过程中的调整信号(梯度)急剧膨胀,最终引发模型训练彻底崩溃。在以往的单细胞模型研究中,这类失败案例屡见不鲜,造成了巨大的算力浪费。

研究团队提出的解决方案是“sigmoid注意力”。它的运作逻辑完全不同:每个基因之间的关联分数独立计算,无需与其他基因竞争。回到课堂的比喻,这相当于老师可以同时、全力地关注每一个学生,对每个学生的关注度都可以独立达到100%。数学上,sigmoid函数将每对基因的关联度独立映射到0到1之间,不做跨基因的归一化。

这种独立性带来了两大优势:其一,更能真实模拟基因的并行调控网络;其二,梯度传播更加稳定。因为sigmoid函数的导数(可理解为信号放大倍数)永远不会超过0.25,而softmax的放大倍数会随着注意力分数增大呈指数级膨胀。研究团队的数学推导证实,sigmoid注意力的雅可比矩阵是对角结构的(各电路独立运行),而softmax的是密集耦合的(所有电路共用总线,一损俱损)。

三、让理论落地:专为生物数据设计的高效计算内核

理论虽好,但若计算效率低下,一切仍是空谈。这就引出了该研究的第二个核心贡献:一个名为TritonSigmoid的高效GPU计算内核。

为什么需要专门开发新内核?因为现有的高效工具存在局限。当前流行的FlashAttention专为softmax优化,无法直接用于sigmoid。虽有FlashSigmoid这样的尝试,但它既不支持序列长度不一的填充处理(这在生物数据中几乎不可避免),也不兼容最新的GPU架构。用常规方法实现sigmoid注意力虽然支持填充,但速度慢得难以实用。

为此,团队使用Triton语言从头打造了TritonSigmoid,其创新点主要包括:

稀疏块计算:对于完全由填充构成的空白数据块,内核直接跳过计算,好比阅卷时看到白卷就直接判零分,而非逐字检查。这使得在25%填充率的情况下,计算效率损失仅为9.3%。

融合运算:将整个注意力计算流程融合为一个连续操作,避免了中间结果反复写入和读取内存的开销,大幅提升了效率。

反向传播分解:将训练时的反向传播过程拆分为两个独立内核,分别处理不同部分的梯度计算,消除了并行计算中的冲突,让硬件协作更高效。同时,采用“重计算”策略,在反向传播时临时重新计算前向的中间结果,以此换取更高的内存使用效率。

最终的性能数据颇具说服力。在NVIDIA H100 GPU上,TritonSigmoid在多项测试中均领先于现有方案。换算下来,其前向计算速度比FlashAttention-2快43%,比普通实现快5.6倍。在具有25%填充的真实生物数据场景下,其优势进一步扩大。由于基于Triton实现,该内核天然支持适配未来新的GPU架构,具备了良好的前瞻性。

四、实验验证:sigmoid注意力训练出的模型真的更好吗

解决了效率问题,下一个关键问题是:用sigmoid注意力训出的模型,能力到底如何?

研究团队训练了多个1.6亿参数规模的模型进行对比,变量包括注意力机制(softmax vs. sigmoid)和上下文窗口长度(2K vs. 4K)。所有模型均在相同的海量细胞数据集上训练至完全收敛。

评估则在六个独立的、未参与训练的数据集上进行,覆盖大脑、血液、结肠、肺、心脏等多种组织,以及从胚胎到老年的不同发育阶段和健康/疾病状态,旨在全面检验模型的泛化能力。

评估维度包括:预测被遮盖基因的准确度(损失值)、细胞类型聚类效果、以及细胞类型在表征空间中的分离程度等。

结果呈现出清晰的规律:首先,在所有数据集和窗口长度下,sigmoid注意力的预测损失均更低。其次,更长的上下文窗口(4K)系统性地优于较短的窗口(2K),这印证了捕捉更广泛基因关系的重要性。

在生物学意义的评估上,sigmoid模型在大多数数据集上取得了更好的细胞类型凝聚度和综合得分。一个突出的例子是在心脏流出道数据集上的分析:sigmoid模型在所有28种细胞类型的两两比较中,其表征分离程度(MMD值)均高于softmax模型,平均提升幅度达到25%。这意味着,sigmoid模型学到的细胞表征,能让不同细胞类型在特征空间中分得更开、更容易被区分。

为什么预测精度相近,sigmoid却能学到更好的表征?一个合理的解释是:softmax的竞争性机制迫使模型聚焦于少数最具预测性的基因,而可能忽略了定义细胞身份的复杂基因共表达模式。sigmoid的独立机制则允许模型同时、充分地关注多个相关基因,从而捕获更全面的细胞特征。

五、极端压力测试:训练崩溃时,sigmoid能否力挽狂澜

除了常规性能,团队还设计了一个“极限压力测试”,专门暴露softmax的稳定性缺陷。

测试条件极为苛刻:使用8192的超长上下文窗口,并移除防止训练发散的“梯度裁剪”保护措施。这好比拆掉赛车的安全装置,看谁能在极限状态下不失控。

softmax模型在训练约40000步后开始失控,到55600步时彻底崩溃:损失值飙升,梯度爆炸式增长四个数量级,注意力分数暴涨至数亿。一旦崩溃,训练便无法恢复。

相比之下,sigmoid模型全程平稳运行了80000步,损失稳步下降,梯度始终保持在正常范围内,注意力分数也稳定在合理区间。在softmax崩溃的那个时间点,sigmoid模型未表现出任何异常。

这一结果完美印证了理论分析:sigmoid的梯度放大存在严格的上限,而softmax在长序列下的放大倍数可能呈指数级增长,最终导致训练过程“爆掉”。

六、训练速度:sigmoid到底快了多少

除了效果更好、更稳定,sigmoid还能让训练更快。

团队测量了不同模型规模和上下文长度下的训练速度。在4K上下文长度下,sigmoid相比softmax普遍有3%-5%的速度优势。对于14亿参数的大模型,速度优势随着上下文长度增加而扩大,在8K长度下可节省近7.5%的训练时间。

对于完成全程训练的1.6亿参数模型,sigmoid在2K上下文下比softmax快9%,在4K上下文下快4%。速度优势随序列变长而增加是符合预期的,因为注意力计算开销随序列长度平方增长,sigmoid在计算上的简洁性(无需跨token归一化)带来的收益也就越明显。

归根结底,这项研究给出了一个明确的结论:对于单细胞生物学基础模型,将softmax注意力替换为sigmoid注意力,已不再是一个理论上的备选项,而是一个经过全面验证的务实选择——模型质量更高、训练更稳定、速度更快。团队同时提供了让替换得以实现的工程方案,并开源了高效计算内核。

随着生物信息学与AI加速融合,未来越来越多的药物研发、疾病诊断和精准医疗方案,都将依赖于这类能读懂细胞语言的AI模型。如何在有限算力下训练出更好、更稳的模型,是一个具有直接现实意义的工程问题。这项研究提供的思路,值得相关领域的研究者和工程师仔细考量。

来源:https://www.163.com/dy/article/KSECB4610511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
东方芯港年检测芯片数百亿颗再添核心检测能力

东方芯港年检测芯片数百亿颗再添核心检测能力

位于上海临港新片区的车规级测试中心即将竣工,计划于6月投产。该中心总投资约17亿元,专注于为汽车芯片提供研发、测试到量产的全流程高可靠性支持。其年检测能力预计达数百亿颗,采用高度自动化流水线作业,将有力完善国内汽车芯片测试验证体系,提升产业自主供给能力。

时间:2026-05-08 21:37
清华AI自学系统让语言模型真正读懂陌生文档

清华AI自学系统让语言模型真正读懂陌生文档

清华大学等团队提出Ctx2Skill框架,通过自博弈机制从文档中自动提炼结构化技能摘要,并采用“跨时回放”策略防止对抗性坍塌。实验显示,该方法能提升大语言模型在复杂任务中的表现,生成的摘要具备良好可迁移性与可读性,为AI理解专业文档提供了新思路。

时间:2026-05-08 21:37
默克公司新方法让AI解读细胞效率提升25%

默克公司新方法让AI解读细胞效率提升25%

默克公司研究团队改进了单细胞生物学AI模型的注意力机制。传统softmax注意力在处理基因表达数据时存在不匹配,而采用sigmoid注意力机制后,模型识别细胞类型的能力提升了25%,训练速度加快近10%,并避免了训练崩溃。团队还开源了专为生物数据设计的高效计算内核,以支持这一改进的实际应用。

时间:2026-05-08 21:37
商汤推出零门槛AI服务无需付费即可处理复杂任务

商汤推出零门槛AI服务无需付费即可处理复杂任务

商汤科技旗下日日新SenseNova平台今日正式发布创新的Token Plan,并同步开启限时免费体验通道。对于广大开发者与AI应用探索者而言,这无疑是一次零成本启动的绝佳机遇——完成简单注册,首月即可获赠每5小时1500次的免费API调用额度,轻松集成其前沿的AI能力矩阵。 那么,商汤此次推出的T

时间:2026-05-08 21:36
北大技能翻译官让AI智能体准确理解自身能力说明书

北大技能翻译官让AI智能体准确理解自身能力说明书

北京大学团队提出SSL结构化表示法,将AI技能说明书转化为三层结构图,清晰分离接口、执行与证据信息,解决了机器理解混杂文档的瓶颈。结合原文,SSL显著提升技能匹配与风险识别效果,尤其擅长提取行为与资源信号,强调需与原始文档互补使用。

时间:2026-05-08 21:36
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程