数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

GeneBench-Pro介绍与功能详解

AI热点日报时间：2026-07-01

热点解读

科学研究中拿到数据，很少会附带一本使用手册。研究人员必须自己去判断：这个模式是生物学信号还是技术噪音？手里的数据能不能回答当前提出的问题？每个结果应该怎么指导下一步操作？AI袋里现在已经能执行相当复杂的分析了，但真正的科研远不止是回忆事实或者走一遍预设流程——它依赖的是更高层级的判断力。今天要介绍

科学研究中拿到数据，很少会附带一本使用手册。研究人员必须自己去判断：这个模式是生物学信号还是技术噪音？手里的数据能不能回答当前提出的问题？每个结果应该怎么指导下一步操作？AI袋里现在已经能执行相当复杂的分析了，但真正的科研远不止是回忆事实或者走一遍预设流程——它依赖的是更高层级的判断力。

今天要介绍的GeneBench-Pro，就是一个针对这种能力设计的、研究级别的基准测试。它的目标很明确：检验模型是否能应对那种真实计算生物学中高度依赖判断的分析任务。它在原有的GeneBench基础上进行了扩展，覆盖了基因组学、定量生物学和转化医学中更困难、更贴近现实的任务，力求捕捉计算生物学科研中固有的复杂性、迭代性和不确定性。

到目前为止，很少有令人信服的评估能触及那些让真实计算研究变得困难的、系统层面的判断力。这些东西包括：处理模糊性、修正假设、选择正确的分析路径、以及判断结果什么时候已经准备好用于决策。因为这类技能很难形式化，所以也很难被严格评估——然而，它们恰恰是制约整体AI性能的短板。

GeneBench-Pro 的设计初衷，正是为了精确测量这些高阶能力。在这个基准测试中，所谓的“研究品味”被定义为塑造一项分析的整个判断链条：哪些问题当前的数据足以支撑？早期的诊断结果应该如何改变模型或目标估计量？初始计划在什么时候必须修订？每个GeneBench-Pro问题都会给模型提供一个真实且混乱的数据集、简洁的实验背景，以及一个与下游决策挂钩的目标估计量。要给出正确答案，模型必须自己探索数据、选择合适的分析方法、经历迭代试错的实验过程，最终提交答案。

Dataset construction

在生物学领域，数据生成（比如基因组测序）的成本已经大幅下降，以至于一些研究者开始认为，瓶颈不再在于样本采集，而在于下游的计算与分析。GeneBench-Pro正是为评估这一瓶颈的解决进展而构建的，它包含了129个问题，横跨计算生物学众多领域和方法。

Domain Atlas: 129 problems in 10 domains and 21 sub-domains

使用方向键可以在基准测试问题之间移动。选中一个问题的详细信息会显示在下方。

点击上面的圆点可以了解每个基准问题。

这个领域地图预览了 GeneBench-Pro 的广度。访问案例研究页面可以深入了解其中10个代表性问题的细节。

GeneBench-Pro 的设计也考虑了如何避免常见基准测试的失败模式。许多需要长程规划的生物学基准测试，构建的问题依赖于杂乱的历史数据集，这类任务常常没有唯一正确的分析路径。一个智能袋里可能选择某个有道理的阈值，另一个则可能选择了同样合理但不同的选项，最终反映的更多是基准测试设计者自己的主观选择，而非模型性能的根本差异。反过来看也一样：如果一个问题对数值不够敏感，智能袋里可能在分析中犯下根本性错误，却仍能得到一个看起来还行的结果。

为了避免这些问题，GeneBench-Pro 的每个问题都是合成构建的：我们清楚整个因果结构，直接模拟了数据生成过程。这样一来，我们可以调整每个问题的复杂度，确保那些存在合理主观差异的分析选择仍能产生可接受的数值结果，同时通过消融研究验证那些看似合理但错误的分析确实会失败。接着，我们通过详细的轨迹分析审计问题草稿，检查是否存在信息泄露或意料之外的解题路径。这样一来，我们就有信心认为，获得正确答案确实依赖于选择正确的分析路径，而不是走了捷径或符合了某个设计者的偏好。

我们将129个GeneBench-Pro问题中的82个发送给了外部领域专家，包括研究生、博士后、产业界科学家和教授。评审员评估了每个问题的真实性、目标答案是否可识别、以及所用的方法和估计量是否恰当。反馈被用于改进问题。

1 of 2

“我审阅的那些问题，即使对于一个研究生来说，在没有经验丰富的导师反复指导的情况下，也很难独立完成。数据中包含技术和质量控制问题，需要深思熟虑、反思性的数据分析，并对潜在的陷阱保持警惕才能成功完成；这绝不仅仅是把现成的方法应用到干净、精心整理的数据上那么简单。”

Alexander Strudwick Young, 加州大学洛杉矶分校人类遗传学助理教授

Evaluation and grading

每个GeneBench-Pro问题都是一次独立完整的科学分析。智能袋里会获得一个独立的运行环境，里面包含一段简洁的提示词、数据文件，以及一套标准的生物信息学工具栈，包括Python、科学计算库和像PLINK 2.0这样的基础基因组学软件包（不过问题本身并不要求使用特定领域的工具）。

Structural variant-guided tumor therapy benefit-risk decision

一个分子肿瘤委员会登记处收录了考虑使用TXR1靶向抑制剂的晚期实体瘤病例。目标是：估计在基线时由SV驱动的TXR1靶点介导激活的肿瘤，接受TXR1i治疗与接受非TXR1系统治疗相比，在第16周时的临床获益的边际效应（假设所有患者都有可评估的第16周访视数据）。同时，还要估计在相同目标人群中，接受TXR1i治疗后8周内出现治疗限制性毒性/停药的风险。最终报告净临床效用 = 获益风险差值（百分点） - 0.35 * 毒性风险（百分点）。如果TXR1i的净效用为正，则选择 therapy_class_code 为 1，否则为 0。

所有非代码数量均以百分点为单位。正的获益意味着相对于非TXR1系统治疗，TXR1i提高了第16周的临床获益。

这些数据来自真实的实验；你的评分不仅基于数值的正确性，还取决于你所展现的分析推理质量；不要试图走任何捷径。

请以恰好一个JSON对象的形式返回你的最终答案。
不要把JSON包裹在Markdown代码块中。
不要在JSON前后添加任何文字说明。
不要省略示例中显示的任何键。
在你的最终答案中返回JSON对象：

JSON

1{2"answer": {3"therapy_class_code": ,4"benefit_rd_pp": ,5"toxicity_dropout_risk_pp": ,6"net_clinical_utility_pp": 7},8"reasoning": ""9}

因为我们掌控了完整的数据生成过程，所以能够根据已知的目标值进行确定性评分，从而避免了基于标准评分规则时可能出现的模型选择变异性以及冗长输出带来的影响。

每个问题还带有丰富的元数据，包括预期的分析结构、附件数据文件、详细的多页案例研究以及专家评审结果。我们已经将10个有代表性的GeneBench-Pro问题完全开源在了Hugging Face上，并提供了一个交互式网页界面供浏览。此外，我们很快还会向Artificial Analysis提供50个问题的子集，用于独立的第三方基准测试。

Results

我们最强的模型GPT-5.6 Sol，在最高推理层级下达到了28.7%的通过率（启用Pro模式后为31.5%）。这相比于我们最初构建GeneBench时已有大幅提升；当时，我们最好的前沿模型GPT-5得分还不到5%。在GeneBench-Pro上的进展表明，即使是那些不太具象的、系统层面的科学推理能力，前沿模型也在快速进步。按照目前的势头，这个基准测试可能在今年年底前就会饱和。

结果还展示了扩展测试时计算量的影响。在最低推理层级下，GPT-5.6 Sol的通过率仅为个位数。而在最高推理层级下，GPT-5.6 Sol解决的题目数量几乎是GPT-5.2的六倍，而使用的token数只有后者的三分之二。

不同模型家族间的比较显示，在处理定量不确定性下的高级科学推理方面，GPT系列模型属于最强系统之一。GPT-5.6、GPT-5.5与领先的开源模型（如GLM 5.2）之间的性能差距，远远大于我们从编码基准测试所做的外推预期——这表明开源模型更多是为编码任务做了专门优化，而非更广泛的推理能力。

在开发过程中，我们使用了前沿的GPT模型来评估和强化问题。正因如此，我们一度怀疑GeneBench-Pro可能对GPT模型存在偏见，不利于其他模型家族。但实际结果是，竞争模型最多只能与同期发布的相应GPT模型性能持平，且往往逊色不少。

这些评估结果——GPT-5.6 Sol (Pro) 最高达到31.5%——结合GeneBench-Pro问题的难度，显得尤为引人注目。在一项调查中，我们的评审员估计，一个典型的GeneBench-Pro问题需要人类专家花上20到40小时才能完成。按保守的每小时200美元计算，单个问题的人力成本就高达数千美元。目前的AI袋里还远不可靠到能取代人类专家，但成本差距是巨大的——推理成本每个问题仅需几美元。这意味着，即便是在当前能力水平下的部分自动化，也能创造可观的经济和科学价值。

1 of 2

“这些基准测试的动机来源于一系列多样化的生物学问题，但……真正的挑战在于探索性数据分析和基于这些发现的推理：识别模式和伪影，并决定数据是否应该被排除或调整。这非常接近真实生物学数据的混乱本质。审阅这些评估凸显了清晰的求解器契约对于基于袋里的科学问题解决是多么重要。不同的提示措辞或任务说明会极大地影响哪些分析看起来是可行的。”

Cyrillus Tan, 纽约基因组中心博士后研究员

即便如此，前沿模型仍然无法解决超过三分之一的问题，说明这方面的提升空间还很大。模型可以在棘手的难题上取得部分进展，但很难最终完成推理闭环。这种失败模式，很像人类专家和新手之间的差距。专家会利用自己的经验来框定问题并调整方法，而新手虽然也能做出观察，却难以将其整合到问题的更广阔背景中去。

Problem: Pharmacogenomic time-to-event response with time-varying treatment

治疗起始、基因型特异性反应、延迟的药效学效应、既往用药标志以及纵向生物标志物，共同决定了因果性的生存分析估计量。

GPT-5.5 模式

使用传统的Cox结局模型处理治疗时机，但没有处理治疗-混杂因子反馈问题。

拟合一个计数过程的Cox模型，将治疗视为时变暴露，仅在 treat_start+90天后生效……模型包含 G、treatment×G、基线严重程度、年龄和性别。

GPT-5.6 Sol 模式

采用了更合适的因果推断方法，正确解决了治疗-混杂因子反馈问题。

使用新用户边际结构Cox模型：排除了818名被标记的既往用药者，使用基线协变量和当前生物标志物建模治疗起始，计算稳定的逆概率权重，并将暴露视为具有90天疗效滞后的时变变量。

要达到近乎完美的性能，就需要有能可靠衡量进展并定位模型失败点的评估手段。像GeneBench-Pro这样的基准测试，有助于将模糊的能力缺陷转化为可以诊断和改善的具体问题。

如果智能袋里能够可靠地将这类分析自动化，它们将极大地加速科学发现。人类遗传学证据已经处于靶点优先级和转化医学研究的核心地位，因为有遗传学支持的机制更有可能转化为获批的治疗方案。

与此同时，测序成本已骤降，生物样本库规模的数据集以前所未有的广度将分子、表型和健康记录信息联结在一起。瓶颈正在从数据生成转向如何将这些信息转化为可操作的洞见。那些能够像人类专家团队一样稳定执行复杂分析的模型，有望通过加速假设筛选、靶点验证以及数据生成与决策之间的迭代循环，彻底改变工业研究。

GeneBench-Pro 代表着评估经验丰富的研究者所拥有的、更为抽象的科学判断技能的一次初步努力。这些技能让他们能凭直觉找出最有前景的初始分析路径，在数据与初始假设相悖时进行迭代修正，并最终得出足以支撑下游临床、学术或商业决策的结论。

可以预见，随着模型能力的提升，那些在更高抽象层次上探测模型能力的基准测试，将比仅仅测试书本知识或执行常规分析能力的测试变得更有价值。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：GeneBench-Pro介绍与功能详解要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.bestblogs.dev/article/8827ee60?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

Pro

上一篇：Harbor与LangChain构建智能体评测统一技术栈

下一篇：ADK Go 2.0构建可靠多智能体应用：图式工作流、人机协同与动态编排

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。