当前位置: 首页
AI
MolFM助力生物分子模拟:实现更高精度与快速推理

MolFM助力生物分子模拟:实现更高精度与快速推理

热心网友 时间:2026-03-04
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在 1,300–1,500 原子规模的高精度 DFT 基准上实现 SOTA 级精度,可实现最多单卡 15 万原子的吞吐。

在药物研发、蛋白构象研究、核酸功能解析等领域,分子模拟是理解生命过程的重要工具,但长期受制于「尺度-精度」矛盾:高精度量子化学方法往往只能覆盖数百原子,而更可扩展的经典力场又难以刻画复杂分子作用与非局部效应。即便机器学习力场显著提升了精度,在真实生物大分子场景仍常被三类问题卡住:公开数据以小分子为主、显式溶剂与大体系样本稀缺;长程相互作用难以被完整建模;以及大体系推理吞吐不足,难以进入稳定可用的工程流程。

近日,IQuest Research(至知创新研究院)UBio团队发布分子基础模型框架UBio‑MolFM,面向生物大分子体系的高精度模拟需求,通过数据、模型架构与训练策略的协同设计,实现了分子模型的新突破。团队构建了迄今为止最大的高精度 DFT 数据集 Ubio-Mol26,包含 1700 多万数据,分子最多达 1200 原子。数据重点覆盖溶液环境中的蛋白质、DNA/RNA 段、细胞膜块等生物大分子体系。在这个海量数据基础上,团队使用最先进的 E2FormerV2 类 transformer 的等变神经网络架构,结合显式的长程相互作用建模,在多阶段课程学习框架的加持下,实现了SOTA级精度与吞吐表现。同时,团队开源 5 百万条高质量 DFT 数据 UBio‑Protein26 5M,推动社区复现与应用,后续模型权重和推理代码也会陆续上线。


框架总览

01

本次发布:UBio-MolFM框架、

Protein26数据底座与开源复现路径


UBio‑MolFM 是一套面向真实生物体系场景的分子基础模型框架,覆盖蛋白、DNA/RNA、脂质膜及多类复合体系,并针对显式溶剂、长程耦合与大体系稳定推理进行了系统化设计。

UBio-MolFM 包含三部分:一是面向生物体系的数据底座(UBio-Mol26/Protein26),二是用于大体系推理的等变架构实现(E2Former-V2),三是支持多理论层级稳定融合的训练范式,并配套开放代码、数据与后续模型/工作流计划。

数据底座:更接近生物体系

UBio-Mol26(约 1700 万构型),覆盖蛋白、DNA/RNA、脂质膜与复合体系,包含显式溶剂,单体系规模最高可达 1200 原子,并采用统一流程生成高质量 DFT 标注(wB97M-D3)。同时开放标准化子集 UBio-Protein26 5M(5M 训练 + 0.2M 测试),训练集由 4.5M def2-SVP 与 0.5M def2-TZVPD 组成;其平均原子数超过 370,用于补足公开数据在生物大体系尺度上的覆盖缺口。


数据生成流程

数据构造上,UBio-Mol26 采用「bottom-up 枚举 + top-down 采样」的混合路线:bottom-up 系统枚举氨基酸短肽、核酸片段与脂质单元以保证基础构件覆盖;top-down 从真实蛋白结构抽取局部环境并进行溶剂化与化学封端,以增强对生物场景几何与相互作用模式的覆盖。团队还给出了与 OMol25 的分布对比(t-SNE 可视化,t-SNE 为常用降维可视化方法),用于说明两套数据在特征空间中的互补关系。


t-SNE 对比:UBio-Mol26 vs OMol25

模型:E2Former‑V2(线性扩展的等变Transformer)

UBio-MolFM 采用 E2Former-V2(线性扩展的等变 Transformer),以「节点中心、硬件友好」的实现减少稀疏边操作、提升内存局部性,从而降低大体系推理开销;同时通过 EAAS 稀疏化降低 SO(3) 张量积开销,并结合 LSR 长短程建模同时处理局部相互作用与远程耦合。


E2Former-V2 架构示意

训练:三阶段课程学习(稳定融合多理论层级)

三阶段训练用于在化学覆盖、物理一致性与尺度扩展之间取得平衡:

Stage 1 使用 OMol25 进行快速能量初始化,采用能量头与独立力头并行预测以提升吞吐;

Stage 2 丢弃独立力头,力由能量梯度计算,强化能量‑力一致性;

Stage 3 融合 UBio‑Mol26 的多保真数据,通过双头结构与 force‑only 监督处理不同理论层级:SVP 与 TZVPD 分别对应不同能量头,TZVPD 仅施加力损失以绕开能量偏移,同时用 Omol25、SVP、TZVPD 8:1:1 的数据配比与相似性过滤保持训练稳定。

02

在生物大体系上同时跑出

「可引用精度」与「大规模吞吐」,

让高精度模拟更接近真实工作流


对科研与产业而言,分子基础模型要真正进入日常工作流,至少要回答两个问题:第一,在更接近真实的生物大体系上,误差是否仍可控且可验证;第二,在需要长时间轨迹与高频推理的分子动力学场景里,吞吐是否足以支撑工程使用。UBio-MolFM 的价值在于,它把这两件事放在同一套评测与工程约束下并行推进。

外推精度:1,300–1,500 原子规模上精度显著领先

团队构建了 1,300–1,500 原子规模外推测试集,并对比 MACE-OMol 与 UMA-S-1p1(使用最新代码与最新 checkpoint,评测设置保持最新一致)。测试集覆盖蛋白质优化、DNA 优化、RNA 优化、蛋白质 MD 等多类任务,样本数与平均原子数在文档中给出了明确统计:例如蛋白质优化 1,010 样本、平均 1,524.9 原子;RNA 优化 505 样本、平均 1,467.4 原子。

外推测试集统计


在代表性结果(蛋白质优化)中,UBio-MolFM (S3) 的相对能量 MAE 为 8.68 meV/100 atoms,显著优于 MACE-OMol 的 76.94 与 UMA-S-1p1 的 83.45;力 MAE 为 16.77 meV/Å,也显著低于 MACE-OMol 的 39.29 与 UMA-S-1p1 的 42.84。

代表性结果(蛋白质优化;相对能量与ΔE单位为meV/100 atoms,力单位为meV/Å)


团队同时给出了阶段性判断:蛋白质任务上能量与力误差显著降低;DNA 任务仍有提升空间,已明确为后续数据扩展的重点方向。

物理一致性:从溶剂结构、环境敏感构象到金属配位,验证「像物理」的关键细节

生物体系里,很多「看上去像细节」的物理量,恰恰决定了模型能否用于解释与预测。UBio-MolFM 在文档中给出了多组物理一致性验证:

在纯水与 0.15 mol/L NaCl 溶液中,模型能够重现 RDF 结构与配位数,用溶剂统计量验证基本液体结构是否合理。


水的 RDF

在环孢素 A(CsA)体系中,模型能保持环境敏感构象:水中维持开放态、真空中维持闭合态,验证其对溶剂化环境变化的响应是否符合物理直觉。


CsA 水中构象


CsA 真空构象

在 RNA 1L2X + Mg²⁺ 系统中,模型重现 Mg–O 距离与角分布,体现对金属离子配位几何的刻画能力。对于核酸结构稳定性与功能相关研究,这类能力往往是「能不能用」的分水岭。


RNA Mg2+ 配位

推理吞吐:在1k–50k 原子范围内实现约4× 提升,把「大体系计算」从偶发实验推向可重复流程

在单卡 H100 上,UBio 团队对 MolFM-S3 与 UMA-S/UMA-M、MACE-OMol、eSEN、E2Former-V1 等等变模型做了推理吞吐测试(1k–100k 原子,保守力计算)。结果显示:在 1,000 原子规模下,MolFM-S3 为 61 steps/s,对比 UMA-S 的 16、MACE-OMol 的 8、E2Former-V1 的 12;在 10,000 原子规模下,MolFM-S3 仍有 6.10 steps/s,而多种对比模型已出现 OOM。单卡可实现至多 15 万原子的推理。

在 1k–50k 原子范围内,MolFM-S3 相对 UMA-S 约 4× 吞吐提升;在 100k 原子规模下,除 UMA-S 外大多数模型出现 OOM,UBio-MolFM 由于显式建模长程作用也未能幸免,这也提示了下一步的明确方向:探索更好的长程相互作用建模方式,进一步降低显存开销。


综合外推精度、物理一致性与吞吐表现,UBio-MolFM 的定位更接近「生物体系高精度模拟底座」:一方面把可验证的生物体系模拟推进到更真实的尺度(1,300–1,500 原子),另一方面通过 UBio-Mol26 与 E2Former-V2 的协同设计,使模型能够同时处理生物结构、溶剂化与金属配位等关键相互作用,从而为药物发现、蛋白构象动力学、核酸功能研究等提供统一的建模基础。

*头图来源:至知研究院

极客一问

你如何看待 UBio - MolFM ?

来源:https://www.163.com/dy/article/KN6UL6Q605119FMA.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止

DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止

新智元报道编辑:KingHZ【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌

时间:2026-03-30 22:55
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok

时间:2026-03-30 22:48
华羿机器人登陆港交所市值破百亿,领跑国内国际市场

华羿机器人登陆港交所市值破百亿,领跑国内国际市场

今日,华沿机器人正式在港交所挂牌上市,开启了其资本市场的新征程。此次上市,华沿机器人发售价定为每股17 00港元,折合人民币约14 99元。开盘时,股价为16 8港元,即人民币14 82元,而收盘价

时间:2026-03-30 22:31
被投科技企业版图观察:美团AI如何链接50+伙伴

被投科技企业版图观察:美团AI如何链接50+伙伴

当所有人盯着大模型时,美团看到了什么?作者|徐珊编辑|郑玄「为了保持企业有 Day1 的活力,你必须快速做出好的决策。这对初创企业来说或许很容易,但对大型组织来说却极具挑战。」2016 年,亚马逊创

时间:2026-03-30 21:07
Meta智能眼镜发售在即:两款新品专为近视用户设计

Meta智能眼镜发售在即:两款新品专为近视用户设计

智东西编译 佳扬编辑 云鹏智东西3月30日消息,据彭博社报道,Meta计划下周推出两款全新Ray-Ban智能眼镜,专为佩戴近视眼镜的人士设计。消息人士透露,新款眼镜为矩形和圆形两种款式,主要通过传统

时间:2026-03-30 21:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程