专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell
最近,AI for Science领域可谓捷报频传,在物理、化学、生物等多个基础科学领域接连取得突破性进展。
这边厢,诺贝尔物理学奖和化学奖双双授予了在AI领域做出奠基性贡献的科学家;那边厢,阿里云与中山大学的联合科研团队,就在RNA病毒发现领域取得了重要突破,其研究成果被国际顶级学术期刊《细胞》(Cell)正式收录。

这篇题为《基于人工智能探索和记录隐藏的RNA病毒世界》的论文,核心是提出了一个名为“LucaProt”的深度学习模型。它的使命,是快速、准确地识别RNA病毒,从而彻底碘伏了传统依赖繁琐生物信息学流程的病毒发现方法。
LucaProt基于Transformer架构与大模型技术构建,创新性地融合了蛋白质的序列与结构双重特征。测试结果表明,它的性能相当亮眼:在外部验证集上,模型实现了高达97.4%的召回率,同时将假阳性率控制在极低的0.023%。更关键的是效率——传统方法可能需要数天甚至数周来完成的分析,LucaProt仅需几百毫秒到几秒即可完成,堪称“降维打击”。
借助云计算与AI技术的强大组合,研究团队从海量数据中一次性发现了超过16万种全新的RNA病毒。这个数字是什么概念?它接近此前人类已知RNA病毒种类的30倍。这一发现不仅极大地拓展了我们对RNA病毒多样性及其演化历史的认知,也为病毒学研究打开了全新的视野。
这项成果本身,就是跨学科高效协作的典范。论文的共同第一作者,分别是阿里云飞天实验室的算法专家贺勇,以及中山大学医学院的侯新博士。而论文的共同通讯作者团队,则汇聚了中山大学的施莽教授、阿里云生物计算研究总监李兆融,以及悉尼大学的全球知名病毒学家Edward Holmes。生物学的前沿问题,与AI领域的最新技术,在这里产生了深刻的化学反应。

(阿里云和中山大学团队,右二贺勇、右三李兆融、右四施莽、左四侯新)
作为核心参与者,贺勇对此评价道:“这套‘AI+病毒学’的新研究框架,刷新了人类对整个病毒圈的认识。随着认知的不断完善,它不仅有助于我们对未来潜在的流行病进行预警,也将进一步推动RNA病毒疫苗的研发进程。”
AI for Science的深入探索,离不开“AI+云计算”提供的多维支撑。近年来,阿里云在助推学术研究方面持续投入,已与全球超过70所高校展开合作,累计支持发表了百余篇高水平学术论文,并共同申请了近70项发明专利。
特别是在生命科学领域,阿里云与中山大学、浙江大学等国内顶尖高校合作,围绕病毒学、药物发现、生物学等方向开展前沿课题研究。目前已陆续发布了核酸和蛋白质统一基础模型LucaOne、RNA病毒发现模型LucaProt、磷循环蛋白家族识别模型LucaPCycle等一系列成果,其中多项都由贺勇主导或深度参与。
这项突破背后,究竟有怎样的AI逻辑与思考?我们与阿里云飞天实验室算法专家贺勇进行了一次深度对话,他分享了这项科研突破背后的经验,以及对AI for Science领域的独到洞见。
可标准化的 RNA 病毒寻找,AI 大展身手
问:这次研究成果的突破性,在预期之内吗?
贺勇:一开始我们更多是抱着尝试的心态。核心目标是寻找新病毒,至于能否登上顶刊,完全取决于最终成果的硬实力。寻找RNA病毒其实已经有一套相对固定的传统方法,整个流程甚至可以标准化,但问题在于过程极其繁琐复杂。于是我们就想,能不能用AI来攻克这个环节?当然,这背后也需要一些对效果的直觉判断。基于过去十年的AI实践经验,我预感这个问题AI应该能交出不错的答卷。
问:与传统方法相比,AI路径究竟带来了哪些优势?
贺勇:传统流程包含大量需要人工介入的迭代环节,比如结果查看、确认、筛选和验证,非常依赖专家经验,耗时费力。我们采用的,是基于Transformer架构的第三代深度学习技术,并依托生物领域大模型构建了LucaProt。它的工作原理,是对RNA病毒的复制酶序列进行深度表征学习,然后基于这个表征来鉴定病毒。
AI方法最大的特点就是“端到端”,把中间那些繁复的人工步骤直接省略了。生物数据不像文本或图像那样直观,普通人根本无法直接“阅读”,必须借助各种专业工具。AI的优势在于,只要有相关数据,它就能自动挖掘其中隐藏的深层信息。对于病毒发现这种任务,识别这些隐含信息恰恰是关键,所以AI的效果就特别突出。
我们训练的LucaProt模型,使用时非常简单:输入一个蛋白质序列,它就能直接判断这是否是RNA病毒,完全绕过了复杂的生物信息学分析或传统实验流程。在一个独立的测试数据集上,模型展现了优秀的泛化能力。随后,我们通过全球规模的推理计算,再经生物实验验证,最终成功发现了超过16万种全新的RNA病毒。
问:与之前发布的LucaOne模型相比,这次的LucaProt有哪些技术上的演进?
贺勇:LucaOne定位是一个通用的生物基础大模型,它对核酸和蛋白质进行无差别的统一表征。而LucaProt,则是利用生物大模型提供的强大表征能力,针对“寻找新病毒”这个具体下游任务进行专项优化的模型。可以理解为,LucaOne提供了坚实的“基础能力”,而LucaProt则专注于解决具体的“实战问题”。
问:在这样跨学科的研究中,如何弥合生物学与AI之间的认知鸿沟?
贺勇:我们团队本身在医疗和生物信息学方面有一定积累,但直接与生物学家对话,依然存在专业壁垒。这时,阿里云生物计算研究总监李兆融博士扮演了至关重要的“桥梁”角色,极大地加速了双方的理解进程。在交叉学科研究中,这样的桥梁角色是不可或缺的。
问:整个过程中,遇到的主要瓶颈是什么?
贺勇:最大的挑战来自生物学知识的门槛。我们需要持续学习生物领域的专业知识,才能以全局视角理解和处理生物问题。此外,生物学数据的校验与处理本身,也是一大挑战。
问:这些瓶颈是如何被突破的?
贺勇:我们呼唤更多复合型人才——即同时具备扎实计算机背景和生物学知识的人才。另外,与本身就倡导交叉学科的研究院或学院合作,往往会事半功倍,因为双方能更自然地互补,共同解决问题。
AI for Science 仍处于早期识别阶段
问:AI for Science 的方法论,可以抽象成一种通用模式吗?
贺勇:大致可以归纳为几个步骤:首先,深入分析待解决科学问题的特性以及相关数据的特性;然后,基于这些特性设计专门的算法模块,利用现有技术进行优化改造,或提出全新的模型架构来适配问题;接着,进行效果评估和模型迭代优化;最后,基于模型输出进行科学新发现的挖掘与验证。
问:如何判断一个科研项目是否适合引入AI来解决?
贺勇:通常会评估几个维度:一是传统方法的成熟度和瓶颈;二是对问题本身的理解门槛;三是AI可能带来的效果提升空间。其中最关键的一点是,这个问题背后是否有“规律”可循。凡是存在内在规律的问题,AI往往能取得意想不到的好效果。
问:在您看来,AI for Science 在生物学领域具备哪些独特的优势?
贺勇:优势主要体现在三个方面:首先是数据的开放性与丰富度。生物学领域有大量高质量公开数据,例如美国国家生物技术信息中心(NCBI)的数据,经过全球科学家社区的校验,质量高且易于获取。其次是计算资源的不断增强与成本持续下降,使得大规模计算成为可能。最后是技术迁移的便利性。生物序列(如DNA、蛋白质序列)与文本序列在结构上具有相似性,这使得自然语言处理领域的许多成熟技术(如Transformer)能够相对平滑地迁移到生物学领域,大大降低了技术应用的门槛。
问:近期诺奖青睐AI,您的研究又为病毒学带来突破。您如何看待AI for Science的当前阶段与未来?
贺勇:尽管仍处于起步阶段,但AI无疑已成为解决科学问题的一种重要手段和研究方法。它之所以备受关注,根本原因在于科学界存在大量尚未解决的难题。现阶段的关键,在于如何将具体的科学问题进行抽象,形式化地定义成有明确输入输出、有数据支撑、可计算的问题。一旦完成这种转化,AI就能大显身手。
具体到生物学,AI的发展可能也遵循类似的路径。目前我们主要处在“识别”或“读懂”的第一阶段,比如识别生物序列的功能、鉴定病毒序列、预测其来源和感染性等,这类似于计算机视觉中的“图像识别”阶段。而下一个“生成式”阶段,例如根据所需功能直接设计生成特定的蛋白质,目前还远未成熟。今年诺贝尔化学奖得主Da vid Baker教授在蛋白质设计上的工作就属于这个方向,但效果仍有很大提升空间。
展望未来,在生物医疗领域,AI终将迈向生成式阶段,比如生成特定的抗体或小分子药物。但必须清醒认识到,当前的AI for Science,主要还是处在“认识世界”的阶段,距离主动“改造世界”还有很长的路要走。前景固然光明,但我们仍需正视所处的发展阶段。
问:要实现从“认识”到“改造”的跨越,需要满足哪些条件?
贺勇:我认为需要三个核心条件的成熟:第一,更多精细化数据的积累,尤其是在疾病治疗和药物研发领域产生的、高质量、有明确标注的数据。第二,大模型架构本身的变革。当前主流的Transformer架构是基于序列设计的,而生物学信息本质上是三维空间分子结构。用序列模型处理结构信息,必然存在信息损失。我们需要能更好理解和处理三维空间信息的全新架构。第三,基础设施的同步跟进。包括算力、专用硬件(如显卡)都需要为新的计算范式进行重构和匹配。这些条件,在将AI应用于其他自然科学领域时,也是普遍需要的。
问:对于AI for Science的未来,您是否有任何担忧?
贺勇:是的,AI目前仍有其明显的局限性。它尤其不擅长处理那些依赖精细、微小变化的问题。当前AI的强大能力依然严重依赖于大量数据,它还无法像人类科研人员那样进行真正的“创新”和“碘伏性改变”。此外,生物学实验中许多需要“手感”和实操经验的“手艺活”,在可预见的未来,仍然是AI难以替代的。
AI for Science,阿里在路上
问:是什么促使您选择深耕AI for Science这个领域?
贺勇:很大程度上是性格和兴趣使然。我享受解决问题的过程。我拥有计算机和AI的背景,很自然地希望用这些技能去攻克科学界那些具体、实在的难题,探索AI在推动科学前沿方面的潜力。
问:阿里云已经将生命科学领域的三款大模型开源,这主要是基于怎样的考量?
贺勇:开源的核心目的是为了降低使用门槛,让更多研究者能够用上这些工具,从而共同推动生物学细分领域的基础通用模型走向完善。开源生态本身也能反哺模型的优化迭代。同时,这也能帮助使用者降低从零开始训练模型所需的数据和成本。
问:阿里在与高校合作推进AI for Science时,具备哪些比较优势?
贺勇:优势可以概括为几点:一是显著的算力优势,能为大规模计算提供坚实支撑;二是公司内部有支持长期、有意义项目的文化基因;三是通过阿里云、达摩院等平台,我们与众多高校建立了长期、深入的合作关系,积累了深厚的信任。
问:在与高校的传统学科团队合作时,有什么特别的感受?
贺勇:最直观的感受是,AI的加入能极大加速传统学科的科研进程,实现碘伏性的效率提升。但另一方面,传统学科有其自身的发展逻辑和节奏,AI的“快”与科学研究的“深”需要相互适应、协同推进,才能产生最好的效果。
问:团队接下来的研发规划是怎样的?
贺勇:我们会继续对现有的基础大模型LucaOne进行迭代,解决更多潜在的科学问题。同时,与合作伙伴深化合作,利用AI工具探索更广泛的科学前沿。目前我们仍聚焦在生物领域,未来可能会向下游的临床研究和药物研发方向拓展。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
百川智能联合创始人谢剑离职内幕与未来动向
百川智能联合创始人谢剑即将离职,原因与去向未明。谢剑拥有深厚AI研发管理经验,曾参与百度核心业务,2023年与王小川共同创立百川智能并取得多项技术成果。近期该公司高管持续动荡,商业化、医疗、金融业务负责人及联合创始人等相继离开,创始团队仅剩两人。密集人事变动或预示行业面临。
DeepSeek强化学习与通用人工智能发展路径深度解析
DeepSeek通过大规模强化学习替代监督微调,显著提升推理能力。研究证实从指令微调到强化学习的训练路径有效,并在隐式推理、符号神经融合、混合智能体及数学推理等领域取得进展。
百度云企业级大模型应用落地产业实践与对话
AI大模型正从技术探索转向产业落地。百度以文心大模型为基础,结合算力平台,推动其在金融、医疗等领域的应用。智能客服、数字人定制、编程工具等产品,分别助力企业降本增效、满足场景需求并提升开发效率。统一的基础设施进一步降低了应用门槛与复杂度。
夸克AI务实进阶:从浪潮到落地应用之路
夸克从搜索转向AI助理更易被接受,因其在用户熟悉路径中嵌入能力,顺应使用习惯。产品注重设计:页面纯净、交互流畅,如模拟问诊引导描述病情。功能从场景出发,力求一步到位。近期PC端升级为“系统级全场景AI”,渗透数字生活,以精准答案回应传统搜索痛点。行业竞争显示,卓越体验需技术通过产品。
AI陪伴赛道能否复制泡泡玛特的商业奇迹
AI正从工具转向情感陪伴,核心从解决问题变为共度时光,以满足现代人情感需求。这需平衡技术可控性、沉浸感与人设鲜活度,并通过角色定义与个性化互动建立连接。硬件凭借“在场感”占优,软件则迭代更快。市场出海取决于定位与资源。尽管挑战众多,该领域已展现出创造深度情感连接的潜力。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

