Anthropic与OpenAI同日布局AI4S，巨头竞争从模型转向生态

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

Anthropic与OpenAI同日布局AI4S，巨头竞争从模型转向生态

热心网友时间：2026-07-03

转载

“各有筹码，各有盲区，没有一家拿到了必胜的手牌。”

6月30日这一天，Anthropic和OpenAI几乎同时出手，将各自的筹码推上了AI4S的牌桌。

Anthropic丢下了一枚重磅冲击波：科研智能体工作台Claude Science。它明确表态“不依赖新模型”，而是靠整合现有能力、优化工作流，来承包科学家的日常研究流程。换句话说，它想做的不是模型本身，而是把散落在各处的工具串联起来，帮科学家打通一条从数据到结论的高速公路。

OpenAI则拿出了另一套方案——GeneBench-Pro，一套覆盖基因组学、定量生物学等10个领域的评测基准。测试结果很直接：在129个真实科研workflow题目中，即使是最强的GPT-5.6 Sol，端到端通过率也只有28.7%。这个数字冷冰冰地揭示了AI4S的尴尬现状。

两家巨头的方向看起来南辕北辙，但出发点惊人地一致：它们都认定，AI4S当下的瓶颈早已不是模型不够强，而是模型远未做到真正的端到端。一个能识别数据异常、能写出漂亮报告，却无法据此调整实验方案的模型，算不上一名合格的科研助手。

基于这个共识，Anthropic的选择是把现有模型装进一个可扩展的工作台，用工具链和流程去弥补模型天生的不可靠；OpenAI的选择则是抢先定义“什么是真正完成了一项科研任务”，把话语权锁进一套评测标准里，谁也别想绕开。

别忘了，桌边还有另一位重量级选手——Google DeepMind。凭借AlphaFold等基础科学模型，它在AI+科学领域深耕多年，旗下Gemini for Science平台正将专有资产与数据库捆绑，试图以平台整合的方式，在赛道上划出一片自己的领地。

一场围绕AI4S的“巨头生态混战”，已经悄然拉开帷幕。竞争焦点不再是模型能力的单点比拼，而是全面切换到了生态位的卡位与工作流的整合上。

AI4S撞上了一块怎样的“天花板”

为什么三大巨头偏偏在这个时间点，不约而同地把战火烧向AI4S的底层基础设施？回答这个问题，得先从GeneBench-Pro的数据说起。

OpenAI这次设计了129道题目，完整模拟真实科研工作流：从原始数据清洗、质控、建模、诊断，直到最终得出结论。评分标准严苛得近乎残酷：二元制，只有全部决策正确才算通过。也就是说，哪怕中间分析步骤全对，只要最终结论错了，这道题就是零分。

结果，GPT-5.6 Sol在Max推理设置下的通过率只有28.7%；而在非GPT模型中表现最强的Claude Opus 4.8，也仅达到16.0%。

数据背后的问题很明确：模型能够注意到数据异常，能识别出局部的诊断信号，但它无法将这种认知转化为下游的方法论调整，从而做出正确的分析决策。模型看见了问题，却没有因此改变行动——OpenAI在论文中给了这种缺陷一个精准的命名：“notice-act gap”，即“识别-行动鸿沟”。

这道鸿沟从何而来？珞米科技创始人兼CEO吴昊从技术层面给出了拆解：通用大语言模型在生命科学领域存在三重结构性短板。一，它们难以直接理解生物原始数据的特殊结构；二，生物学中许多现象无法简单套用文本的tokenization规则——基因表达本身就充满了随机性；三，生物学数据中普遍存在大量未知缺失值，对模型构成了巨大的“盲区”。

科研成本同样是绕不开的现实。GeneBench-Pro数据显示，单道题的人工专家成本高达数千美元。当模型不可靠时，科研机构不得不继续依赖昂贵的人力。再加上生命科学领域对数据合规极其严苛的要求，使得这场混战的发生几乎成为必然。模型能力已经撞上了“notice-act gap”的天花板，靠堆算力的老路在科研场景里走不通了。工程化整合、生态卡位和数据主权，成了更务实的突破口。

同一张牌桌，三种不同打法

面对这道天花板，三家巨头各拿了不同的牌，但它们想抵达的终点出奇一致：成为科学家工作中不可或缺的底层基础设施。

Anthropic的打法最直白。Claude Science本质上是一个专门的工作台——主AI助手像项目经理一样拆分任务，解耦后分发给子助手去执行，最后再由事实核验器做交叉验证。它还连接了60多个科学数据库，预建了基因组学、蛋白质结构和化学等工具包。

吴昊对此做了进一步分析：技术实质是通过MCP协议调用外部垂直模型（比如用scGPT处理单细胞数据、DNABERT解析基因序列等）来执行具体计算，Claude自身只承担自然语言理解、任务拆解和结果解读的角色。这种分工带来的好处很实在：一方面避免了通用大模型直接处理生物矩阵时高昂的推理成本；另一方面，垂直模型可以独立迭代，不用等通用大模型的长周期更新。更重要的是，生命科学领域对数据合规的要求极其严格，这种做法可以让敏感数据在本地MCP Server上处理，无需上传云端。

如果说Anthropic是要“包揽”一整条跑道，那OpenAI的逻辑就是用GeneBench-Pro当裁判，先去定义“什么是好的AI4S”，再用专用模型GPT-Rosalind当运动员，去冲击高分。早在四个月前，OpenAI就已推出GPT-Rosalind——一个专门针对生物推理做了微调的模型，以研究预览版形式向美国合格企业客户开放。

Google DeepMind则握着独一无二的底牌。它拥有AlphaFold、AlphaGenome等基础科学模型，都是自有专有资产，与Gemini for Science深度捆绑，并整合了30多个生命科学数据库。关键优势在于，其他玩家只能以调用工具的方式接入的模型，在Google这里就是自家的底层基础设施。或许其他厂商能做出更好的工作台或定义更严苛的基准，但蛋白质结构预测的核心能力牢牢握在Google手里。

在市场打法上，三家的选择也泾渭分明。Anthropic走宽，靠订阅普及化——Pro、Max、Team和Enterprise订阅用户均可使用Claude Science，还推出了30000美元credits的资助计划，面向50个博士后和研究生项目，试图在青年科学家成为独立PI之前，先把他们锁定在自己的工作台里。OpenAI走窄，标准公开允许更多人入局，但模型本身封闭，靠企业门禁建立门槛。Google走深，靠专有资产构筑壁垒，模型即平台，越用越深，越深越离不开。

三套打法对应着三种不同的思路和风险。Anthropic赌天花板短期撞不穿，先用工程化把工作流铺开，可一旦模型突破提前到来，它可能沦为只会做排列组合的工具箱。OpenAI赌天花板迟早会破，先占住标准等着模型能力追上来，但这种“自封裁判”的做法，存在不被科学界买账的可能。Google赌天花板之上还有一层——谁掌握了基础模型的源头，谁就永远有牌可打，但壁垒够高的同时，生态也相对封闭。

三家各有筹码，各有盲区，没有一家拿到了必胜的手牌，但它们都在同一时间窗口里，把自己手中的筹码一次性推上了桌。胜负暂时难以预测，至少头部客户尚未被任何一家锁定——制药巨头Novo Nordisk同时出现在了Anthropic和OpenAI的合作名单里。同一家甲方并行试用多家方案，说明市场还处在开放竞争期，没有哪一家的工具链已经强到能让科学家心甘情愿把完整workflow迁移过去。

AI4S的终局，大概率不会被某一家巨头单独决定。当三大玩家在同一天撞上天花板，它们不约而同地选择入局，但突围的方向还没有共识。真正的答案仍在科学家手中——他们如何在数据主权、学术独立性和研究效率之间取舍，又将信任的票投给谁。这个答案，可能比任何技术参数都更能决定最终的走向。

来源:https://www.163.com/dy/article/L0QNPNTI05118HA4.html

上一篇：我国成功发射海洋二号E卫星助力海洋环境监测

下一篇： AI投资热潮现分水岭美国半导体股遭大举减持