人工智能大模型跨越物种边界解码生命密码，基因组学进入全新时代

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

人工智能大模型跨越物种边界解码生命密码，基因组学进入全新时代

热心网友时间：2026-07-01

转载

探索基因组的奥秘始终是生命科学领域最具挑战性的前沿课题之一。试想，如果人工智能能够解读DNA这套复杂的生命语言，甚至依据语言逻辑来设计与调控生命的“底层代码”，我们将迎来怎样的颠覆性变革？

借助深度学习算法，AI不仅能在海量的基因序列中精准识别精巧的模式，更具备从头生成完整基因序列的卓越能力。这意味着，从基因编辑技术到新药研发流程，我们正迎来前所未有的创新工具。

就在今天凌晨，斯坦福大学化学工程助理教授Brian L. Hie团队在顶级学术期刊《科学》（Science）上，以封面重磅文章的形式发表了里程碑式的研究成果——Evo。这是一个能够有效解读并创造DNA、RNA及蛋白质序列的大规模基因组基础模型。

简而言之，Evo模型在高达3000亿个DNA token上完成了训练任务，使其能够在单碱基分辨率的精细度下，对长序列进行精准预测与创造性生成。更令人瞩目的是，在跨物种的基因预测任务中，它的表现甚至超越了那些专门为特定物种设计的模型。

Evo的设计初衷，在于精确捕获生物学中两个核心维度：中心法则的多模态特性，以及进化的多尺度特征。前者揭示了DNA、RNA与蛋白质之间统一的信息传递路径，而后者则跨越了从分子层面、细胞通路、细胞功能，直至整个生物体的不同层级。

研究结果相当惊艳：Evo生成的多基因系统，成功率接近50%；它设计出的CRISPR-Cas9蛋白经过实验室验证，同样具备显著的生物功能活性。在全基因组生成方面，Evo产生的序列在基因组组织方式、编码密度等关键指标上，均与天然基因组展现出高度的相似性。

可以说，Evo不仅能准确预测基因突变的影响，它更具备了生成完整基因组序列的强大能力。其在基因组设计优化、创新药物研发以及生物工程改造领域的应用潜力，无疑是极为广阔的。

美国Gladstone心血管病研究所的Christina V. Theodoris在同期发表的评论文章中高度评价：“Evo的意义在于，它首次从丰富的进化多样性中，成功提取出了DNA的‘语法规则’，将基因组信息建模的能力提升到了一个前所未有的新高度。”

Evo：解码生命指令的基因组基础模型

生物体基因组的演化进程，本身就是一幅关于适应与选择的壮丽画卷。随着基因测序技术的飞速发展，我们逐步掌握了绘制和解析基因组多样性的能力，从而得以更深入地理解基因在健康维持、疾病发生和适应性进化中所扮演的关键角色。

DNA作为遗传信息的核心载体，仅用四种碱基（A、T、G、C）的排列组合，便精妙地记录着生命的完整指令。

Theodoris在评论中打了个生动的比方：“DNA尽管只有四种碱基这一套‘词汇’，但它却像一门复杂的语言，编码了调控细胞各层级活动的基础信息，从DNA到RNA再到蛋白质。这些信息不仅精确指导着细胞当下的功能运作，还能代代相传，持续驱动着生物的演化进程。”

她进一步指出，正是这种源自进化多样性的DNA序列对比，赋予了大型语言模型学习DNA“语法”的巨大潜力。这是此前那些基于单一基因组训练的传统模型所难以企及的优势。

当然，为基因组信息建模并非易事。当前的机器学习模型，大多聚焦于特定的分子（如蛋白质或RNA），在长DNA序列的生成与预测方面存在明显局限，尤其是涉及基因调控、CRISPR免疫系统这类复杂的多分子、多尺度应用场景时。例如，基于Transformer架构的DNA模型，大多受限于较短的上下文长度，不得不采用将核苷酸聚合的方法来适应模型，这便牺牲了宝贵的单碱基分辨率。

为了攻克这些技术难题，Hie团队从自然语言处理模型在长文本预测与生成的成功经验中获取了启发，从而开发了创新的Evo模型。

Evo采用了一种名为StripedHyena的混合模型架构，它巧妙地将数据控制的卷积算子与多头注意力机制结合在了一起。这成功克服了传统Transformer架构在处理长序列DNA时计算成本高昂、分辨率较低的核心痛点，使得Evo能够在单碱基分辨率下，高效地处理长达131072个token的上下文信息，极大提升了基因组分析的精确程度与处理效率。

图｜拥有70亿参数的基因组基础模型Evo，能够学习从单个核苷酸到整个基因组的生物复杂性。

Evo使用名为OpenGenome的大型数据集进行训练，这个数据集包含了超过8万个细菌和古菌基因组信息，以及数百万个预测的噬菌体和质粒序列，总计涵盖3000亿个核苷酸token。训练过程分两个阶段进行：首先使用8192个token的上下文长度，随后扩展到131072个token。最终模型的参数规模达到了70亿。

正是这种大规模的预训练过程，使得Evo在预测突变对蛋白质和非编码RNA功能的影响时，能够全面考虑分子间的协同作用，为基因突变的精准预测提供了可靠基础。

与自然语言中的单词和句子不同，DNA序列是连续的，并且包含了重叠的多重信息。正如Theodoris所指出的，“一个突变可能影响到这些信息中的任何一层，因此，大型语言模型必须在单核苷酸分辨率下操作，才能全面理解DNA信息的复杂性。”

Evo在单核苷酸分辨率下操作的核心能力，恰好是其应对这种复杂性的关键优势所在。

研究人员对DNA序列建模进行了scaling laws分析，比较了Transformer++、Mamba、Hyena和StripedHyena等多种架构。实验结果表明，StripedHyena在不同计算预算下都展现出更优的缩放率，训练过程稳定，且在计算最优前沿之外的性能也相当出色。这为最终选择StripedHyena作为Evo的基础架构提供了坚实的理论依据。

Theodoris对此评论道：“Evo采用的StripedHyena架构，将计算时间增长较慢的Hyena算子与传统Transformer算子结合，既提升了生成质量，也优化了计算效率。而且它的扩展规律与自然语言处理、计算机视觉领域的规律类似，这为未来更大规模模型的扩展，提供了计算资源分配的最佳路径。”

多模态预测：跨物种基因突变预测的优异表现

为了检验Evo解码遗传序列并在细胞内多层次调控中执行任务的能力，研究人员设计了一系列预测与生成测试任务。

实验数据表明，在预测突变对蛋白质功能影响方面，Evo的表现处于行业领先地位。在原核生物蛋白质的DMS（深度突变扫描）数据集中，Evo的零样本预测能力优于其他核苷酸模型，甚至接近某些专注于蛋白质的语言模型。

在人类蛋白质数据集上，由于初始训练数据量有限，其表现略逊一筹。但这恰恰说明，Evo在进一步训练中拥有巨大的改进空间，尤其是在预测困惑度与适应性之间关联方面的发现，更是提供了重要的启示。

图｜Evo学习跨越蛋白质、非编码RNA和调控DNA的功能。

Evo的跨物种预测能力远不止于蛋白质领域。在非编码RNA的功能预测中，Evo在多个DMS任务上的表现都超越了其他核苷酸语言模型。一个典型的例子是，在预测5S rRNA突变对大肠杆菌生长的影响时，Evo的斯皮尔曼相关系数达到了0.60，展现出了卓越的突变影响预测能力。

此外，在调控DNA活性预测方面，Evo通过高零样本似然度与启动子活性显著关联，再结合监督模型，其预测能力已经接近先进的预测方法。这为非编码区域的功能研究提供了强有力的支持。

生成式设计：功能性CRISPR-Cas9与转座子系统的创建

在生成式设计领域，Evo的表现同样令人瞩目。经过微调后，Evo模型可以根据提示生成多种类型的CRISPR-Cas系统。其中，筛选出的EvoCas9-1经实验验证，具有与天然SpCas9类似的体外切割活性。

不仅如此，Evo生成的sgRNA能够有效提升SpCas9的切割效率，同时生成的Cas9系统在部分序列上与天然Cas9的序列同一性较低，这表明它具备很强的多样性和功能性。

图｜Evo可生成具有可信基因组结构的巨量级序列。

在转座子生成方面，Evo同样展现了它的灵活性和准确性。它生成的IS200和IS605元素在体外实验中表现良好，部分元件成功实现了切除与插入功能。例如，IS200类似元件的成功率接近50%，生成的TnpA蛋白具有功能性的发夹结构和较低的序列同一性，这显示出其在转座子生成方面的广泛适应性。

Theodoris对此评价道：“Evo在基因工具生成中的表现，展示了AI在基因设计领域的广泛应用性。” 她认为，这项突破性的研究展现了如何在计算最优的架构下，实现数据和模型规模的合理配置。这不仅对未来更大规模的基因组建模具有指导意义，也标志着基因组大模型与自然语言处理领域的跨领域创新。

不足与展望

尽管Evo生成的基因组规模序列（约1 Mb）在编码密度、GC含量、蛋白质结构预测、tRNA生成等方面都高度接近天然基因组，但当前的研究依然存在一定瓶颈。

首先，Evo仅在包含3000亿原核生物token的数据集上进行了预训练，这与海量的公开基因组数据相比，只是冰山一角。这直接导致了它在预测人类蛋白质突变功能效应时，能力受到限制。

其次，与自然语言模型类似，Evo在生成长序列时，难以保证连贯性和多样性。例如，在生成CRISPR-Cas序列时，会出现cas基因缺失或不完整的问题；在生成百万碱基长的基因组序列时，也難以涵盖全套rRNAs等关键token基因，从而影响了序列的完整性和可用性。

研究团队指出，未来的工作将从几个方向展开：扩大数据集规模、增加模型参数规模、丰富训练上下文长度。在功能拓展上，计划利用基因组语言模型引导多基因系统的定向进化，提高多基因环境下分子结构预测的准确性，并通过优化条件和提示工程，使Evo成为下一代序列搜索算法的核心，从关系或语义层面挖掘宏基因组信息。

在数据拓展和安全方面，计划纳入真核基因组。但由于真核生物复杂性极高，这需要投入大量的资源用于模型工程、计算资源和安全校准。结合大规模基因组改造的进展，Evo有望将生物工程和设计扩展到全基因组规模。

Theodoris预测，未来的模型可能会学习人类及其他真核生物的基因组，从而更有效地预测基因组中长距离调控交互的影响。他还设想，通过环境因素或细胞状态的提示，可以进一步引导Evo，使其能够在多细胞生物中，根据不同的时空条件执行特定的细胞功能。

Evo模型的安全与伦理考量

必须指出的是，生物技术是一把双刃剑。像Evo这样强大的基因组基础模型，在带来科研突破的同时，也引发了一系列关于安全与伦理的深入讨论。

例如，恶意用户可能试图利用Evo生成具有抗药性或免疫逃逸能力的微生物。尽管实际操作难度很大，但随着基因工程工具的普及，必须对模型的使用权限进行严格监管，并明确界定“滥用”行为，以确保Evo的安全使用。

此外，Evo的开源特性为科研带来了透明性，但其应用资源的分配也可能引发科技不平等问题。目前，能够有效运用Evo的机构，多集中于生物技术公司和大型科研组织，这可能加剧科技红利在特定人群中的集中。为了实现全球科技红利的均衡分配，国际社会有必要推动对资源匮乏地区的技术培训与支持，以弥合科技应用方面的差距。

在生态层面，虽然Evo本身不会直接操控基因，但它生成的基因编辑系统可能带来潜在的生态挑战。基因编辑生物体一旦被释放到自然环境中，可能引发生态失衡。为此，研究团队建议，全球科学界应共同制定更为严格的基因工程准则，确保科学技术在尊重自然生态的前提下造福人类。

Evo的诞生，标志着生成式基因组学进入了一个全新的时代。

作为一款具备跨物种基因预测和生成能力的基础模型，Evo不仅在基因组设计、药物开发等领域展现了前所未有的潜力，也真正推动了生命科学领域的创新步伐。

然而，在推动技术进步的同时，科学家们也需对安全、社会公平和生态保护保持高度关注。通过制定完善的政策和开展全球协作，确保Evo模型的负责任应用，生成式基因组学的未来，无疑将拥有更加广阔的应用前景。

来源:https://www.aiagiai.com/5643.html

上一篇： ChatGPT桌面版升级支持编程App交互离AI接管电脑更近

下一篇：马斯克超算建设速度从4年缩至4个月吓坏对手