默克公司新方法让AI解读细胞效率提升25%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

默克公司新方法让AI解读细胞效率提升25%

热心网友时间：2026-05-08

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

最近，一项来自默克公司剑桥研究团队的工作，为单细胞生物学AI模型的训练带来了一个看似微小、实则影响深远的改进。这项研究以预印本形式发布于2026年4月29日，论文编号为arXiv:2604.27124。

研究要解决的核心问题，直指这类模型的一个基础设计：当AI“阅读”一个细胞的基因表达谱时，它如何决定哪些基因之间的关系更重要？这个决策机制，即“注意力机制”，是整个模型能否准确理解细胞身份的关键。团队发现，长期以来被默认使用的注意力方式，在处理生物数据时存在根本性的不匹配。他们转而采用另一种机制，结果不仅让模型识别细胞类型的能力提升了25%，训练速度加快了近10%，还彻底避免了训练过程中令人头疼的崩溃问题。

这不仅仅是技术指标的提升。单细胞RNA测序数据，作为现代生物医学研究的基石，其价值正通过AI模型被不断挖掘——从自动识别细胞、预测药物反应，到探索疾病机制和推动个性化医疗。为了让这项改进真正落地，研究团队还开源了一个专为生物数据设计的高效计算内核。

一、当AI学会“阅读”细胞：背景与挑战

要理解这项工作的价值，得先看看这类模型通常是怎么工作的。

可以把细胞想象成一个极其复杂的微型工厂，基因就是各个车间的开关。单细胞RNA测序技术，能为我们拍下海量细胞在某一时刻的“工作快照”，记录下每个细胞里哪些基因正在活跃、活跃程度如何。

AI基础模型的任务，就是把一个细胞的基因表达情况当成一段“文字”来解读——每个基因是一个“词”，整个细胞的基因组合成一句“句子”。通过在海量数据中学习，模型试图理解基因间的协同关系，从而学会区分不同类型的细胞。其底层核心，与ChatGPT等大语言模型一样，都依赖于“自注意力机制”。

但问题在于，生物数据和文本数据有个本质区别：细胞的“句子长度”千差万别。不同细胞表达的基因数量，可能从几百个到一万七千多个不等。这就好比有的句子只有三个字，有的却长达一万七千字。研究团队分析了包含1.3亿细胞的CellxGene数据集，发现如果设定一个2048个基因的阅读窗口，那么43%的细胞信息会被直接截断。要想覆盖96.6%的细胞，窗口至少需要扩大到8192个基因。

此外，生物序列的处理必须“一人一档”，无法像文本那样把短句拼接成长文来凑数。这导致在批量处理时，计算资源被大量的“空白填充”严重浪费。

如何高效处理这些长短不一的长序列，并避免计算浪费，正是这项研究瞄准的核心靶点。

二、注意力机制的“竞争性”困境：为什么传统方式在生物数据上表现不佳

那么，传统的注意力机制到底出了什么问题？

目前主流使用的是“softmax注意力”。不妨用一个课堂场景来理解：假设一位老师的注意力总量是100%，他要分配给100个学生（代表100个基因）。如果老师把60%的注意力给了第一排的学生，那么剩下的40%就必须分给其他99人。这是一个典型的“零和游戏”——关注度此消彼长。在数学上，softmax会将所有注意力分数归一化，总和必须为1。

这套逻辑在语言处理中通常可行，但在基因调控的世界里，却有些水土不服。现实中，一个基因往往同时受到多个转录因子（可以理解为基因的“调控开关”）的协同作用，这些关系是并行且独立的，而非互相竞争。用竞争性的注意力来模拟这种并行协作，就像试图用一座独木桥来承载一条八车道高速公路的流量，结构上就不匹配。

更棘手的是，当序列长度达到几千甚至上万个基因时，softmax注意力容易出现“注意力熵坍缩”——模型的注意力会极端地集中在少数几个基因上，其他基因几乎被完全忽略。这种极端集中会导致训练过程中的调整信号（梯度）急剧膨胀，最终引发模型训练彻底崩溃。在以往的单细胞模型研究中，这类失败案例屡见不鲜，造成了巨大的算力浪费。

研究团队提出的解决方案是“sigmoid注意力”。它的运作逻辑完全不同：每个基因之间的关联分数独立计算，无需与其他基因竞争。回到课堂的比喻，这相当于老师可以同时、全力地关注每一个学生，对每个学生的关注度都可以独立达到100%。数学上，sigmoid函数将每对基因的关联度独立映射到0到1之间，不做跨基因的归一化。

这种独立性带来了两大优势：其一，更能真实模拟基因的并行调控网络；其二，梯度传播更加稳定。因为sigmoid函数的导数（可理解为信号放大倍数）永远不会超过0.25，而softmax的放大倍数会随着注意力分数增大呈指数级膨胀。研究团队的数学推导证实，sigmoid注意力的雅可比矩阵是对角结构的（各电路独立运行），而softmax的是密集耦合的（所有电路共用总线，一损俱损）。

三、让理论落地：专为生物数据设计的高效计算内核

理论虽好，但若计算效率低下，一切仍是空谈。这就引出了该研究的第二个核心贡献：一个名为TritonSigmoid的高效GPU计算内核。

为什么需要专门开发新内核？因为现有的高效工具存在局限。当前流行的FlashAttention专为softmax优化，无法直接用于sigmoid。虽有FlashSigmoid这样的尝试，但它既不支持序列长度不一的填充处理（这在生物数据中几乎不可避免），也不兼容最新的GPU架构。用常规方法实现sigmoid注意力虽然支持填充，但速度慢得难以实用。

为此，团队使用Triton语言从头打造了TritonSigmoid，其创新点主要包括：

稀疏块计算：对于完全由填充构成的空白数据块，内核直接跳过计算，好比阅卷时看到白卷就直接判零分，而非逐字检查。这使得在25%填充率的情况下，计算效率损失仅为9.3%。

融合运算：将整个注意力计算流程融合为一个连续操作，避免了中间结果反复写入和读取内存的开销，大幅提升了效率。

反向传播分解：将训练时的反向传播过程拆分为两个独立内核，分别处理不同部分的梯度计算，消除了并行计算中的冲突，让硬件协作更高效。同时，采用“重计算”策略，在反向传播时临时重新计算前向的中间结果，以此换取更高的内存使用效率。

最终的性能数据颇具说服力。在NVIDIA H100 GPU上，TritonSigmoid在多项测试中均领先于现有方案。换算下来，其前向计算速度比FlashAttention-2快43%，比普通实现快5.6倍。在具有25%填充的真实生物数据场景下，其优势进一步扩大。由于基于Triton实现，该内核天然支持适配未来新的GPU架构，具备了良好的前瞻性。

四、实验验证：sigmoid注意力训练出的模型真的更好吗

解决了效率问题，下一个关键问题是：用sigmoid注意力训出的模型，能力到底如何？

研究团队训练了多个1.6亿参数规模的模型进行对比，变量包括注意力机制（softmax vs. sigmoid）和上下文窗口长度（2K vs. 4K）。所有模型均在相同的海量细胞数据集上训练至完全收敛。

评估则在六个独立的、未参与训练的数据集上进行，覆盖大脑、血液、结肠、肺、心脏等多种组织，以及从胚胎到老年的不同发育阶段和健康/疾病状态，旨在全面检验模型的泛化能力。

评估维度包括：预测被遮盖基因的准确度（损失值）、细胞类型聚类效果、以及细胞类型在表征空间中的分离程度等。

结果呈现出清晰的规律：首先，在所有数据集和窗口长度下，sigmoid注意力的预测损失均更低。其次，更长的上下文窗口（4K）系统性地优于较短的窗口（2K），这印证了捕捉更广泛基因关系的重要性。

在生物学意义的评估上，sigmoid模型在大多数数据集上取得了更好的细胞类型凝聚度和综合得分。一个突出的例子是在心脏流出道数据集上的分析：sigmoid模型在所有28种细胞类型的两两比较中，其表征分离程度（MMD值）均高于softmax模型，平均提升幅度达到25%。这意味着，sigmoid模型学到的细胞表征，能让不同细胞类型在特征空间中分得更开、更容易被区分。

为什么预测精度相近，sigmoid却能学到更好的表征？一个合理的解释是：softmax的竞争性机制迫使模型聚焦于少数最具预测性的基因，而可能忽略了定义细胞身份的复杂基因共表达模式。sigmoid的独立机制则允许模型同时、充分地关注多个相关基因，从而捕获更全面的细胞特征。