MolFM助力生物分子模拟:实现更高精度与快速推理

在 1,300–1,500 原子规模的高精度 DFT 基准上实现 SOTA 级精度,可实现最多单卡 15 万原子的吞吐。
在药物研发、蛋白构象研究、核酸功能解析等领域,分子模拟是理解生命过程的重要工具,但长期受制于「尺度-精度」矛盾:高精度量子化学方法往往只能覆盖数百原子,而更可扩展的经典力场又难以刻画复杂分子作用与非局部效应。即便机器学习力场显著提升了精度,在真实生物大分子场景仍常被三类问题卡住:公开数据以小分子为主、显式溶剂与大体系样本稀缺;长程相互作用难以被完整建模;以及大体系推理吞吐不足,难以进入稳定可用的工程流程。
近日,IQuest Research(至知创新研究院)UBio团队发布分子基础模型框架UBio‑MolFM,面向生物大分子体系的高精度模拟需求,通过数据、模型架构与训练策略的协同设计,实现了分子模型的新突破。团队构建了迄今为止最大的高精度 DFT 数据集 Ubio-Mol26,包含 1700 多万数据,分子最多达 1200 原子。数据重点覆盖溶液环境中的蛋白质、DNA/RNA 段、细胞膜块等生物大分子体系。在这个海量数据基础上,团队使用最先进的 E2FormerV2 类 transformer 的等变神经网络架构,结合显式的长程相互作用建模,在多阶段课程学习框架的加持下,实现了SOTA级精度与吞吐表现。同时,团队开源 5 百万条高质量 DFT 数据 UBio‑Protein26 5M,推动社区复现与应用,后续模型权重和推理代码也会陆续上线。

框架总览
01
本次发布:UBio-MolFM框架、
Protein26数据底座与开源复现路径
UBio‑MolFM 是一套面向真实生物体系场景的分子基础模型框架,覆盖蛋白、DNA/RNA、脂质膜及多类复合体系,并针对显式溶剂、长程耦合与大体系稳定推理进行了系统化设计。
UBio-MolFM 包含三部分:一是面向生物体系的数据底座(UBio-Mol26/Protein26),二是用于大体系推理的等变架构实现(E2Former-V2),三是支持多理论层级稳定融合的训练范式,并配套开放代码、数据与后续模型/工作流计划。
数据底座:更接近生物体系
UBio-Mol26(约 1700 万构型),覆盖蛋白、DNA/RNA、脂质膜与复合体系,包含显式溶剂,单体系规模最高可达 1200 原子,并采用统一流程生成高质量 DFT 标注(wB97M-D3)。同时开放标准化子集 UBio-Protein26 5M(5M 训练 + 0.2M 测试),训练集由 4.5M def2-SVP 与 0.5M def2-TZVPD 组成;其平均原子数超过 370,用于补足公开数据在生物大体系尺度上的覆盖缺口。

数据生成流程
数据构造上,UBio-Mol26 采用「bottom-up 枚举 + top-down 采样」的混合路线:bottom-up 系统枚举氨基酸短肽、核酸片段与脂质单元以保证基础构件覆盖;top-down 从真实蛋白结构抽取局部环境并进行溶剂化与化学封端,以增强对生物场景几何与相互作用模式的覆盖。团队还给出了与 OMol25 的分布对比(t-SNE 可视化,t-SNE 为常用降维可视化方法),用于说明两套数据在特征空间中的互补关系。

t-SNE 对比:UBio-Mol26 vs OMol25
模型:E2Former‑V2(线性扩展的等变Transformer)
UBio-MolFM 采用 E2Former-V2(线性扩展的等变 Transformer),以「节点中心、硬件友好」的实现减少稀疏边操作、提升内存局部性,从而降低大体系推理开销;同时通过 EAAS 稀疏化降低 SO(3) 张量积开销,并结合 LSR 长短程建模同时处理局部相互作用与远程耦合。

E2Former-V2 架构示意
训练:三阶段课程学习(稳定融合多理论层级)
三阶段训练用于在化学覆盖、物理一致性与尺度扩展之间取得平衡:
Stage 1 使用 OMol25 进行快速能量初始化,采用能量头与独立力头并行预测以提升吞吐;
Stage 2 丢弃独立力头,力由能量梯度计算,强化能量‑力一致性;
Stage 3 融合 UBio‑Mol26 的多保真数据,通过双头结构与 force‑only 监督处理不同理论层级:SVP 与 TZVPD 分别对应不同能量头,TZVPD 仅施加力损失以绕开能量偏移,同时用 Omol25、SVP、TZVPD 8:1:1 的数据配比与相似性过滤保持训练稳定。
02
在生物大体系上同时跑出
「可引用精度」与「大规模吞吐」,
让高精度模拟更接近真实工作流
对科研与产业而言,分子基础模型要真正进入日常工作流,至少要回答两个问题:第一,在更接近真实的生物大体系上,误差是否仍可控且可验证;第二,在需要长时间轨迹与高频推理的分子动力学场景里,吞吐是否足以支撑工程使用。UBio-MolFM 的价值在于,它把这两件事放在同一套评测与工程约束下并行推进。
外推精度:1,300–1,500 原子规模上精度显著领先
团队构建了 1,300–1,500 原子规模外推测试集,并对比 MACE-OMol 与 UMA-S-1p1(使用最新代码与最新 checkpoint,评测设置保持最新一致)。测试集覆盖蛋白质优化、DNA 优化、RNA 优化、蛋白质 MD 等多类任务,样本数与平均原子数在文档中给出了明确统计:例如蛋白质优化 1,010 样本、平均 1,524.9 原子;RNA 优化 505 样本、平均 1,467.4 原子。
外推测试集统计

在代表性结果(蛋白质优化)中,UBio-MolFM (S3) 的相对能量 MAE 为 8.68 meV/100 atoms,显著优于 MACE-OMol 的 76.94 与 UMA-S-1p1 的 83.45;力 MAE 为 16.77 meV/Å,也显著低于 MACE-OMol 的 39.29 与 UMA-S-1p1 的 42.84。
代表性结果(蛋白质优化;相对能量与ΔE单位为meV/100 atoms,力单位为meV/Å)

团队同时给出了阶段性判断:蛋白质任务上能量与力误差显著降低;DNA 任务仍有提升空间,已明确为后续数据扩展的重点方向。
物理一致性:从溶剂结构、环境敏感构象到金属配位,验证「像物理」的关键细节
生物体系里,很多「看上去像细节」的物理量,恰恰决定了模型能否用于解释与预测。UBio-MolFM 在文档中给出了多组物理一致性验证:
在纯水与 0.15 mol/L NaCl 溶液中,模型能够重现 RDF 结构与配位数,用溶剂统计量验证基本液体结构是否合理。

水的 RDF
在环孢素 A(CsA)体系中,模型能保持环境敏感构象:水中维持开放态、真空中维持闭合态,验证其对溶剂化环境变化的响应是否符合物理直觉。

CsA 水中构象

CsA 真空构象
在 RNA 1L2X + Mg²⁺ 系统中,模型重现 Mg–O 距离与角分布,体现对金属离子配位几何的刻画能力。对于核酸结构稳定性与功能相关研究,这类能力往往是「能不能用」的分水岭。

RNA Mg2+ 配位
推理吞吐:在1k–50k 原子范围内实现约4× 提升,把「大体系计算」从偶发实验推向可重复流程
在单卡 H100 上,UBio 团队对 MolFM-S3 与 UMA-S/UMA-M、MACE-OMol、eSEN、E2Former-V1 等等变模型做了推理吞吐测试(1k–100k 原子,保守力计算)。结果显示:在 1,000 原子规模下,MolFM-S3 为 61 steps/s,对比 UMA-S 的 16、MACE-OMol 的 8、E2Former-V1 的 12;在 10,000 原子规模下,MolFM-S3 仍有 6.10 steps/s,而多种对比模型已出现 OOM。单卡可实现至多 15 万原子的推理。
在 1k–50k 原子范围内,MolFM-S3 相对 UMA-S 约 4× 吞吐提升;在 100k 原子规模下,除 UMA-S 外大多数模型出现 OOM,UBio-MolFM 由于显式建模长程作用也未能幸免,这也提示了下一步的明确方向:探索更好的长程相互作用建模方式,进一步降低显存开销。

综合外推精度、物理一致性与吞吐表现,UBio-MolFM 的定位更接近「生物体系高精度模拟底座」:一方面把可验证的生物体系模拟推进到更真实的尺度(1,300–1,500 原子),另一方面通过 UBio-Mol26 与 E2Former-V2 的协同设计,使模型能够同时处理生物结构、溶剂化与金属配位等关键相互作用,从而为药物发现、蛋白构象动力学、核酸功能研究等提供统一的建模基础。
*头图来源:至知研究院
极客一问
你如何看待 UBio - MolFM ?
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算
2026年4月,一项由英属哥伦比亚大学、Vector研究所与Meta联合开展的研究,在arXiv平台上发布了一份预印本论文,编号为arXiv:2508 10180v3。这项名为“For-Value”的研究,提出了一套评估大语言模型与视觉语言模型训练数据价值的新框架,其思路堪称碘伏。 如今,全球数亿用
雷克里森理工学院推出科学论文配图智能检索系统
这项由雷克里森理工学院(Rensselaer Polytechnic Institute)与芝加哥大学联合主导的研究成果,以预印本形式发布于arXiv平台,论文编号为arXiv:2604 20857v1。该研究于2026年2月28日发布,其核心研究方向归属于计算机科学中的信息检索领域(cs IR)。
腾讯QClaw集成腾讯文档与本地文件管理
近日,腾讯办公协同产品QClaw正式推出了全新的“文件空间”功能。该功能的核心价值在于,首次实现了用户本地计算机文件、腾讯云端文档与企业内部知识库平台(ima)三者的无缝打通与一体化管理。 这意味着,企业员工日常工作中产生的各类文档资产——包括存储在个人设备中的本地文件、用于团队实时协作的腾讯在线文
俄勒冈大学研究团队教会AI识别文章作者写作风格
每个人都有独特的“写作指纹”。有人偏爱绵长的句式,有人行文干脆利落;有人善用感叹抒发情绪,有人则始终保持冷静克制的笔调;还有人总在不经意间将话题引向自己熟悉的领域。这些细微的语言习惯,如同指纹一般,构成了个体独特的“写作风格”。 正因如此,在版权纠纷中,文风分析可作为判定真实作者的有力工具;学术界借
加州大学圣克鲁兹分校AI桌面助手在复杂电脑任务中首次超越人类
想象一下,你对电脑说一句“帮我把这份演示文稿的页码改成红色”,它就能自己打开软件、找到设置、完成修改。这种能直接操作图形界面的AI助手,学术上称为“GUI智能体”,无疑是未来人机交互的一大愿景。 然而,现实中的AI助手远未如此可靠。它们常常陷入两个令人头疼的困境:要么“自我感觉良好”,任务没做完就急
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

