专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell

热心网友时间：2026-05-16

转载

最近，AI for Science领域可谓捷报频传，在物理、化学、生物等多个基础科学领域接连取得突破性进展。

这边厢，诺贝尔物理学奖和化学奖双双授予了在AI领域做出奠基性贡献的科学家；那边厢，阿里云与中山大学的联合科研团队，就在RNA病毒发现领域取得了重要突破，其研究成果被国际顶级学术期刊《细胞》（Cell）正式收录。

这篇题为《基于人工智能探索和记录隐藏的RNA病毒世界》的论文，核心是提出了一个名为“LucaProt”的深度学习模型。它的使命，是快速、准确地识别RNA病毒，从而彻底碘伏了传统依赖繁琐生物信息学流程的病毒发现方法。

LucaProt基于Transformer架构与大模型技术构建，创新性地融合了蛋白质的序列与结构双重特征。测试结果表明，它的性能相当亮眼：在外部验证集上，模型实现了高达97.4%的召回率，同时将假阳性率控制在极低的0.023%。更关键的是效率——传统方法可能需要数天甚至数周来完成的分析，LucaProt仅需几百毫秒到几秒即可完成，堪称“降维打击”。

借助云计算与AI技术的强大组合，研究团队从海量数据中一次性发现了超过16万种全新的RNA病毒。这个数字是什么概念？它接近此前人类已知RNA病毒种类的30倍。这一发现不仅极大地拓展了我们对RNA病毒多样性及其演化历史的认知，也为病毒学研究打开了全新的视野。

这项成果本身，就是跨学科高效协作的典范。论文的共同第一作者，分别是阿里云飞天实验室的算法专家贺勇，以及中山大学医学院的侯新博士。而论文的共同通讯作者团队，则汇聚了中山大学的施莽教授、阿里云生物计算研究总监李兆融，以及悉尼大学的全球知名病毒学家Edward Holmes。生物学的前沿问题，与AI领域的最新技术，在这里产生了深刻的化学反应。

（阿里云和中山大学团队，右二贺勇、右三李兆融、右四施莽、左四侯新）

作为核心参与者，贺勇对此评价道：“这套‘AI+病毒学’的新研究框架，刷新了人类对整个病毒圈的认识。随着认知的不断完善，它不仅有助于我们对未来潜在的流行病进行预警，也将进一步推动RNA病毒疫苗的研发进程。”

AI for Science的深入探索，离不开“AI+云计算”提供的多维支撑。近年来，阿里云在助推学术研究方面持续投入，已与全球超过70所高校展开合作，累计支持发表了百余篇高水平学术论文，并共同申请了近70项发明专利。

特别是在生命科学领域，阿里云与中山大学、浙江大学等国内顶尖高校合作，围绕病毒学、药物发现、生物学等方向开展前沿课题研究。目前已陆续发布了核酸和蛋白质统一基础模型LucaOne、RNA病毒发现模型LucaProt、磷循环蛋白家族识别模型LucaPCycle等一系列成果，其中多项都由贺勇主导或深度参与。

这项突破背后，究竟有怎样的AI逻辑与思考？我们与阿里云飞天实验室算法专家贺勇进行了一次深度对话，他分享了这项科研突破背后的经验，以及对AI for Science领域的独到洞见。

可标准化的 RNA 病毒寻找，AI 大展身手

问：这次研究成果的突破性，在预期之内吗？

贺勇：一开始我们更多是抱着尝试的心态。核心目标是寻找新病毒，至于能否登上顶刊，完全取决于最终成果的硬实力。寻找RNA病毒其实已经有一套相对固定的传统方法，整个流程甚至可以标准化，但问题在于过程极其繁琐复杂。于是我们就想，能不能用AI来攻克这个环节？当然，这背后也需要一些对效果的直觉判断。基于过去十年的AI实践经验，我预感这个问题AI应该能交出不错的答卷。

问：与传统方法相比，AI路径究竟带来了哪些优势？

贺勇：传统流程包含大量需要人工介入的迭代环节，比如结果查看、确认、筛选和验证，非常依赖专家经验，耗时费力。我们采用的，是基于Transformer架构的第三代深度学习技术，并依托生物领域大模型构建了LucaProt。它的工作原理，是对RNA病毒的复制酶序列进行深度表征学习，然后基于这个表征来鉴定病毒。

AI方法最大的特点就是“端到端”，把中间那些繁复的人工步骤直接省略了。生物数据不像文本或图像那样直观，普通人根本无法直接“阅读”，必须借助各种专业工具。AI的优势在于，只要有相关数据，它就能自动挖掘其中隐藏的深层信息。对于病毒发现这种任务，识别这些隐含信息恰恰是关键，所以AI的效果就特别突出。

我们训练的LucaProt模型，使用时非常简单：输入一个蛋白质序列，它就能直接判断这是否是RNA病毒，完全绕过了复杂的生物信息学分析或传统实验流程。在一个独立的测试数据集上，模型展现了优秀的泛化能力。随后，我们通过全球规模的推理计算，再经生物实验验证，最终成功发现了超过16万种全新的RNA病毒。

问：与之前发布的LucaOne模型相比，这次的LucaProt有哪些技术上的演进？

贺勇：LucaOne定位是一个通用的生物基础大模型，它对核酸和蛋白质进行无差别的统一表征。而LucaProt，则是利用生物大模型提供的强大表征能力，针对“寻找新病毒”这个具体下游任务进行专项优化的模型。可以理解为，LucaOne提供了坚实的“基础能力”，而LucaProt则专注于解决具体的“实战问题”。

问：在这样跨学科的研究中，如何弥合生物学与AI之间的认知鸿沟？

贺勇：我们团队本身在医疗和生物信息学方面有一定积累，但直接与生物学家对话，依然存在专业壁垒。这时，阿里云生物计算研究总监李兆融博士扮演了至关重要的“桥梁”角色，极大地加速了双方的理解进程。在交叉学科研究中，这样的桥梁角色是不可或缺的。

问：整个过程中，遇到的主要瓶颈是什么？

贺勇：最大的挑战来自生物学知识的门槛。我们需要持续学习生物领域的专业知识，才能以全局视角理解和处理生物问题。此外，生物学数据的校验与处理本身，也是一大挑战。

问：这些瓶颈是如何被突破的？

贺勇：我们呼唤更多复合型人才——即同时具备扎实计算机背景和生物学知识的人才。另外，与本身就倡导交叉学科的研究院或学院合作，往往会事半功倍，因为双方能更自然地互补，共同解决问题。

AI for Science 仍处于早期识别阶段

问：AI for Science 的方法论，可以抽象成一种通用模式吗？

贺勇：大致可以归纳为几个步骤：首先，深入分析待解决科学问题的特性以及相关数据的特性；然后，基于这些特性设计专门的算法模块，利用现有技术进行优化改造，或提出全新的模型架构来适配问题；接着，进行效果评估和模型迭代优化；最后，基于模型输出进行科学新发现的挖掘与验证。

问：如何判断一个科研项目是否适合引入AI来解决？

贺勇：通常会评估几个维度：一是传统方法的成熟度和瓶颈；二是对问题本身的理解门槛；三是AI可能带来的效果提升空间。其中最关键的一点是，这个问题背后是否有“规律”可循。凡是存在内在规律的问题，AI往往能取得意想不到的好效果。

问：在您看来，AI for Science 在生物学领域具备哪些独特的优势？

贺勇：优势主要体现在三个方面：首先是数据的开放性与丰富度。生物学领域有大量高质量公开数据，例如美国国家生物技术信息中心（NCBI）的数据，经过全球科学家社区的校验，质量高且易于获取。其次是计算资源的不断增强与成本持续下降，使得大规模计算成为可能。最后是技术迁移的便利性。生物序列（如DNA、蛋白质序列）与文本序列在结构上具有相似性，这使得自然语言处理领域的许多成熟技术（如Transformer）能够相对平滑地迁移到生物学领域，大大降低了技术应用的门槛。

问：近期诺奖青睐AI，您的研究又为病毒学带来突破。您如何看待AI for Science的当前阶段与未来？

贺勇：尽管仍处于起步阶段，但AI无疑已成为解决科学问题的一种重要手段和研究方法。它之所以备受关注，根本原因在于科学界存在大量尚未解决的难题。现阶段的关键，在于如何将具体的科学问题进行抽象，形式化地定义成有明确输入输出、有数据支撑、可计算的问题。一旦完成这种转化，AI就能大显身手。

具体到生物学，AI的发展可能也遵循类似的路径。目前我们主要处在“识别”或“读懂”的第一阶段，比如识别生物序列的功能、鉴定病毒序列、预测其来源和感染性等，这类似于计算机视觉中的“图像识别”阶段。而下一个“生成式”阶段，例如根据所需功能直接设计生成特定的蛋白质，目前还远未成熟。今年诺贝尔化学奖得主Da vid Baker教授在蛋白质设计上的工作就属于这个方向，但效果仍有很大提升空间。

展望未来，在生物医疗领域，AI终将迈向生成式阶段，比如生成特定的抗体或小分子药物。但必须清醒认识到，当前的AI for Science，主要还是处在“认识世界”的阶段，距离主动“改造世界”还有很长的路要走。前景固然光明，但我们仍需正视所处的发展阶段。

问：要实现从“认识”到“改造”的跨越，需要满足哪些条件？

贺勇：我认为需要三个核心条件的成熟：第一，更多精细化数据的积累，尤其是在疾病治疗和药物研发领域产生的、高质量、有明确标注的数据。第二，大模型架构本身的变革。当前主流的Transformer架构是基于序列设计的，而生物学信息本质上是三维空间分子结构。用序列模型处理结构信息，必然存在信息损失。我们需要能更好理解和处理三维空间信息的全新架构。第三，基础设施的同步跟进。包括算力、专用硬件（如显卡）都需要为新的计算范式进行重构和匹配。这些条件，在将AI应用于其他自然科学领域时，也是普遍需要的。

问：对于AI for Science的未来，您是否有任何担忧？

贺勇：是的，AI目前仍有其明显的局限性。它尤其不擅长处理那些依赖精细、微小变化的问题。当前AI的强大能力依然严重依赖于大量数据，它还无法像人类科研人员那样进行真正的“创新”和“碘伏性改变”。此外，生物学实验中许多需要“手感”和实操经验的“手艺活”，在可预见的未来，仍然是AI难以替代的。