面包屑图标 当前位置: 首页
AI资讯
热点详情

中国团队用LLM和JEPA把世界模型搬进细胞内部

AI热点日报
AI热点日报时间:2026-07-04
热点解读

百曜科技发布全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型CellOS,基于3 905亿个人类单细胞转录组数据训练,覆盖40余种组织与260余种细胞类型。通过多视角表征学习、JEPA联合嵌入预测及无损扩容,在细胞状态注释与扰动响应预测任务上达到国际领先水平。

近期,AI虚拟细胞(AIVC)领域迎来了一系列具有里程碑意义的突破。

作为全球最早布局该赛道的企业之一,百曜科技日前正式推出全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型——AURA CellOS。

据公开资料显示,该模型是当前参数规模最大的单细胞基础模型,基于3.905亿个人类单细胞转录组数据进行训练,覆盖范围囊括了几乎所有重要的人类细胞类型,包含40余种人体组织和260余种细胞亚型。

其中最引人注目的突破在于,它首次将JEPA(联合嵌入预测架构)与世界模型理念系统性地引入到单细胞研究领域。

世界模型已在自动驾驶、机器人和生成式AI等领域成为关键技术方向。CellOS的亮相,引发了外界强烈好奇:在高度复杂的生命科学领域,世界模型是否能够真正落地,并带来实质性的价值?

已公开的评测结果显示,CellOS在预测精度、扰动建模等多个核心指标上,与多款主流模型相比实现了倍数级的性能提升,达到了当前国际领先(SOTA)水平。

然而,要真正理解其技术逻辑与商业潜力,我们仍需从一颗细胞的故事讲起。

AIVC站在十字路口

理解细胞的状态变化,是生命科学研究最核心的命题之一。

无论是疾病的发生、药物的作用,还是细胞治疗的实施,本质上都是细胞在特定刺激下状态发生改变的过程。

过去,科学家只能依赖细胞培养、动物实验甚至人体试验来探究细胞在药物或基因扰动下的反应。高昂的研发成本和漫长的实验周期,使得大量潜在新药与细胞疗法陷入反复试错的困境。“十年研发周期、十亿美元投入,临床成功率却不足10%”的“双十定律”,是时候被终结了。

△图片由AI生成

“虚拟细胞”的出现,为药物发现开辟了一条全新的路径。

在计算机中“复刻”细胞的想法,早在20世纪90年代便已有学者尝试,并开发出最早的细胞建模软件之一——VCell。随后,斯坦福大学研究团队发布了全球首个全细胞计算模型。

但此前的虚拟细胞并非具备学习能力的模拟器,它无法模拟细胞在不同条件与环境变化下的动态反应。它不能预测细胞的功能、行为或动力学机制,因此难以揭示其背后的生物学原理,最终限制了它在药物研发中的实际价值。

直到近年来,AI技术的飞速进步以及组学技术的迅猛发展,才使虚拟细胞逐渐靠近生命科学的“模拟沙盘”:

  • 单细胞测序技术的指数级进步和成本下降,显著提升了数据采集能力。过去数年中,这些数据每6个月翻一番,为模型构建提供了底层基础。
  • AI技术的进步则极大增强了细胞数据的处理、学习与推理能力。

2024年12月,由美国斯坦福大学、基因泰克制药公司与陈—扎克伯格基金会组成的联合科研团队,在顶级期刊《Cell》上发表重磅论文,正式点燃了全球研发热潮:AI虚拟细胞(AIVC)的时代已经到来。

△图片由AI生成

实际上,在此之前,Geneformer、scGPT、scFoundation、GeneCompass等一批模型已经相继问世,只不过业内尚未形成统一的“AIVC”叫法。

这些第一代AIVC模型主要解决了细胞类型识别等基础需求,但在预测细胞动态变化方面存在明显短板。举个例子:如果敲除某个基因、使用某种药物,或诱导细胞分化之后,细胞会如何演变?第一代AIVC模型在这类动态预测任务上的表现相当有限。

其核心原因在于,这些模型的训练目标主要是学习基因表达模式本身,而非探究细胞状态变化的深层机制。因此,它们难以区分哪些表达变化仅仅是背景噪声,哪些才是真正驱动细胞状态改变的关键信号。

更深入来看,由于模型主要基于单一表达视角来学习静态的基因表达模式,它们很难刻画基因间的调控关系及细胞状态的动态演化规律。很多只有在特定扰动条件下才会显现的关键生物学信号,也容易被大量稳定表达的背景信号所掩盖。

所以,仅仅依靠扩大数据规模和模型参数,并不能显著提升模型对细胞状态演化轨迹的预测能力,也无法真正学习到细胞变化背后的内在生物学规律。

2026年6月,《Nature Methods》发表的一项研究结果令人深思:研究人员基于包含2220万个细胞的scTab语料库,预先训练了400个模型,并完成了6400次评估。结果显示,在多项任务中,模型性能往往仅在使用约1%的预训练数据后便进入平台期。

换句话说,仅用约22万个细胞训练,模型性能就已基本饱和,再喂入大量同质化的细胞样本,模型效果也难以获得明显提升。

这一现象促使行业开始重新反思:现有的技术路线是否还能持续受益于Scaling Law(规模缩放定律)?或者说,问题究竟出在数据规模不足,还是第一代AIVC的建模范式已经触及瓶颈?

CellOS给出的答案指向后者:真正制约模型持续进步的,并非Scaling Law本身,而是传统语言模型架构与细胞数据特性之间的系统性错配

只有当模型真正学会细胞状态的演化规律,而不仅仅是静态的表达模式时,数据规模的扩展才能持续转化为模型能力的提升。

从“看懂”到“理解”细胞,CellOS的“三板斧”

世界不是由文字构成的。

李飞飞最新长文如是说。

而细胞世界,更不由文字来定义。

归根结底,AIVC领域需要的是AI对细胞状态的深入理解,而非仅仅是对表达模式的简单复现。只有这样,模型才能支撑动态预测(如扰动响应)和可迁移的虚拟细胞能力。

从行业角度来看,CellOS这次的技术路线选择相当大胆。它并未沿着大多数团队仍在走的“安全路线”——在大语言模型上继续堆砌参数和数据,而是直接选择了JEPA这条更难走、但潜在天花板更高的道路。

因为人工智能领域已形成普遍共识:“世界模型”最擅长感知规律并推演环境动态变化。在自动驾驶和机器人领域,世界模型已被用于预测环境变化。而现在,细胞领域也开始了同样的尝试。CellOS正是第一个“吃螃蟹”的模型。

CellOS是首个将世界模型理念引入AI虚拟细胞领域的模型。同时,它也是公开信息中规模最大的单细胞Foundation Model,基于3.905亿个人类单细胞转录组数据训练,拥有12B参数。这一规模几乎覆盖了所有已知的人类细胞类型。

CellOS的核心创新主要体现在三个方面:多视角表征学习、JEPA联合嵌入预测、无损扩容。我们逐一来看。

创新一:多视角表征学习

这一创新让模型在进入更复杂的训练阶段之前,就能先获得更丰富、更敏锐的细胞特征辨别能力。

传统单细胞基础模型通常仅依赖单一的“表达视角”,即根据基因在单个细胞中的表达丰度来判断细胞状态。这种方法容易忽略那些表达量不高、但在生物学上具有重要标志意义的基因(如调控基因、应激响应基因),导致关键信号容易被背景噪声淹没。

为此,CellOS引入了“双视角互补机制”,在表达视角之外,增加了一个群体感知视角。这相当于给模型装上了两双“眼睛”:

  • 一双眼睛关注表达丰度(即该基因的活跃程度如何);
  • 另一双眼睛关注群体特异性(即该基因在整个细胞群体中的独特性和信息量)。

将这两个维度拆分开来、同时进行并行分析后,模型就像突然开启了“透视”模式,能够更轻松地捕捉到那些隐藏的重要生物学信号。其结果就是:模型对细胞状态变化的敏感度显著提升,同时为第二层创新打下了坚实基础。

创新二:引入JEPA架构

在创新一(双视角)为模型提供高质量的互补表征之后,CellOS引入了JEPA(联合嵌入预测架构),在隐空间中利用这些互补表征进行跨视角预测与对齐。

传统模型的训练方式是:给定一个细胞的基因表达数据,要求模型尽可能“原样复述”出来。这就像让学生死记硬背课文,容易记住表面文字,却不理解其内在含义。

CellOS引入JEPA,则是彻底换了一种玩法:它不再让模型简单复述输入,而是让模型用“一种视角”去预测“另一种视角”所看到的结果。

简单来说,就是迫使模型在脑海中构建一个“细胞状态的内在模型”,从而抓住那些真正稳定的生物学规律。举个例子,传统模型看到的是“这个细胞现在长什么样”;而JEPA则在学习“如果从不同角度观察这个细胞,它的本质状态是什么?如果发生变化,它会朝哪个方向演变?”

这一设计直接让模型的能力从“看懂表面”升级到“理解本质”。尤其是在预测“敲除某个基因后细胞会怎样”、“加入药物后细胞如何反应”这类动态问题上,效果提升尤为显著。

创新三:无损扩容训练方案

模型越大越聪明,但存在一个常见问题:参数增多后,模型往往会忘记之前学过的知识。业内称之为“灾难性遗忘”。

CellOS在这方面做了特别设计——无损扩容机制。具体做法是:先扎实训练一个“中小型”稠密模型,打好基础;然后通过平滑的方式,将其升级为超大规模的MoE模型(混合专家模型)。在升级过程中,保留原有模型学到的核心知识,同时新增大量“专家”模块来学习更复杂的内容。

这样一来,模型既能变得更大、更强,又不会忘记之前辛苦学会的细胞表达规律。

至此,我们会发现,这三大创新并非各自为战,而是环环相扣!双视角是基础,负责提供“优质原料”;JEPA架构是核心,负责“深度思考”;无损扩容是保障,确保模型变大后性能“不掉链子”。

不过,模型搭建好之后,接下来该如何训练?CellOS提出了Dense-to-MoE三阶段训练策略。它并未将上述创新一股脑塞进一次训练,而是将其拆分为三个循序渐进的阶段。

  • 第一阶段(Dense):先使用传统的“表达视角”,训练一个扎实的中小型稠密模型。
  • 第二阶段(MoE):模型基础打好后,开始扩容,平稳地将模型扩容至12B参数规模8×8 Expert MoE稀疏模型 CellOS.md
  • 第三阶段CellOS.md file||cellos.md file||CELLOS.md file
  • 第三阶段CellOS.md (cellos.md file||CELLOS.md file||CELLOS.md file)
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段CellOS.md file
  • 第三阶段
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:中国团队用LLM和JEPA把世界模型搬进细胞内部要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.qbitai.com/2026/07/442746.html
世界模型

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 19:00
Daetama数据科学完整准备工作系统指南与精选学习资源汇总

Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。

AI热点2026-07-04 19:00
AI驱动配音平台 Speakmulti

SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。

AI热点2026-07-04 18:59
Umi-OCR图片转文字识别软件

需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,

AI热点2026-07-04 18:59
用AI生成你最爱的画家或艺术运动风格绘画

艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来

延伸阅读