专访OpenAI首席科学家探讨AI自主科研还有多远

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

专访OpenAI首席科学家探讨AI自主科研还有多远

热心网友时间：2026-05-27

转载

OpenAI正在重新校准战略重心，将资源集中投向一个全新的宏伟目标。这一次，他们聚焦于打造“AI研究员”——一个能够完全自动化、由智能体构成的系统，可以独立应对并解决复杂的科学难题。这一目标已被确立为公司未来数年的“北极星”指引，旨在深度整合其在推理模型、智能体技术与可解释性研究方面的全部积累。值得注意的是，这一愿景已非纸上蓝图，相关项目已进入实质性推进阶段。

根据其路线图，OpenAI计划在9月前率先开发出“自主AI研究实习生”系统，使其能够独立承担少量特定的研究任务。而这仅仅是迈向2028年终极目标的前奏。届时，OpenAI期望推出一个全自动、多智能体协同的尖端研究系统。按照其构想，该系统将有能力处理那些连人类专家都感到棘手的复杂问题，其应用范围可能覆盖数学与物理学的新证明或猜想、生物学与化学等生命科学领域的重大难题，甚至延伸至商业分析与公共政策制定。从理论上讲，任何能够通过文本、代码或草图进行表述的问题，都可以交由它尝试解决，其潜在的应用场景之广阔，不言而喻。

过去几年间，OpenAI无疑是全球人工智能领域的风向标。凭借在大语言模型领域建立的早期领先优势，它成功塑造了如今数亿用户日常接触的技术范式。然而，市场竞争格局正在快速演变，来自Anthropic、Google DeepMind等强劲对手的竞争日趋白热化。因此，OpenAI的下一步战略布局，不仅关乎其自身的命运走向，也在很大程度上将塑造AI技术未来的发展路径。

这一关键的战略决策，很大程度上落在了首席科学家雅库布·帕乔基（Jakub Pachocki）的肩上，他负责主导制定公司的长期研究目标。帕乔基在开发GPT-4和前沿的推理模型中都扮演了核心角色——前者是2023年发布、重塑行业格局的里程碑式大语言模型，后者则是2024年崭露头角、如今已成为所有主流聊天机器人与智能体系统基石的关键技术。在近期的一次独家专访中，帕乔基向外界详细阐述了OpenAI的这一全新战略愿景。

“我们正在接近一个关键的技术拐点，”他表示，“届时AI模型将能够像人类研究员一样，以连贯、持续的方式无限期地开展工作。当然，全局性的战略掌控和最终目标设定仍然需要人类。但我相信，我们会达到这样一种状态：一个高度智能化的数据中心，其整体研究效能将相当于一整座顶尖的研究实验室。”

实现“AI研究员”愿景的核心技术路径

必须承认，这类宏大的技术愿景在AI界并非首次提出。通过攻克世界级科学难题来“推动人类进步”，几乎是所有顶尖AI公司的共同宣言。DeepMind联合创始人德米斯·哈萨比斯（Demis Hassabis）早在2022年就向《麻省理工科技评论》表示，这正是他创办公司的初心。Anthropic的CEO达里奥·阿莫迪（Dario Amodei）则宣称，他的目标是在数据中心内构建一个“天才之国”。至于OpenAI的CEO山姆·奥特曼（Sam Altman）立志攻克癌症等重大疾病的愿景，帕乔基透露，公司目前已经具备了实现这些目标所需的大部分核心技术条件。

今年1月，OpenAI正式发布了Codex，这是一款基于智能体的创新应用，能够在本地或云端环境中自主生成并执行代码任务。它可以智能分析文档、生成数据图表、自动制作收件箱和社交媒体的每日摘要等等。其他科技巨头也推出了类似工具，例如Anthropic的Claude Code和Claude Cowork。

据悉，OpenAI内部绝大多数技术人员如今在日常工作中都已频繁使用Codex。帕乔基将Codex视为未来“AI研究员”的一个极其早期的原型，并预计其核心能力即将迎来根本性的跨越与提升。

实现这一跨越的关键在于，如何让AI系统在更长的任务周期内稳定运行，同时大幅减少对人类实时指导的依赖。“我们对自动化研究实习生的真正期待是，你可以将那些原本需要一名人类研究员花费数天才能完成的、定义明确的任务，完全交给它去执行。”帕乔基进一步解释道。

“构建能够进行长周期、自主科学研究的智能系统，让整个研究社区都感到非常兴奋，”艾伦人工智能研究院的研究科学家道格·唐尼（Doug Downey）评论道，这种热情很大程度上是受到了代码智能体成功案例的驱动。“你能将相当复杂的编程任务交给Codex这样的工具来完成，这已经非常实用且令人印象深刻。随之而来的一个更宏大问题是：我们能否将这种卓越的问题解决能力从编程领域拓展出去，在更广泛的自然科学与社会科学领域实现类似的自动化突破？”

对帕乔基而言，答案显然是肯定的。他认为，这只是沿着现有技术路径的必然延伸，随着模型整体能力的持续提升，其独立工作的时长和复杂度自然会增长。他以2020年的GPT-3到2023年GPT-4的飞跃为例，指出GPT-4处理复杂问题的持续性与连贯性已远超前者，这种进步甚至在未经专门长时程训练的情况下就已显现。

而推理模型的横空出世，带来了又一次显著的能力跃升。通过训练大语言模型学会逐步解题、并在犯错或走入死胡同时进行回溯与修正，模型在更长时间段内保持正确方向的工作能力得到了系统性加强。帕乔基坚信，OpenAI的推理模型技术还将持续迭代与进步。

与此同时，OpenAI的研究团队也正通过向系统“投喂”特定类型的复杂任务样本来训练它们，例如数学奥林匹克竞赛和顶级编程比赛中的高难度题目。这些题目迫使模型学会追踪超长上下文信息，并将一个宏大复杂的难题智能地拆解、管理成一系列有序的子任务。

但帕乔基澄清，他们的目的并非单纯为了制造一个数学竞赛冠军模型。这更像是在将技术投入真实世界广泛应用之前，进行的一种高难度可行性验证。“如果我们真的决心去做，完全有能力打造出一个出色的AI数学家。但这并非我们当前的最高优先级，因为当你确信自己具备某种能力时，往往有更紧迫、更具现实意义的事情等待解决。我们目前更专注于那些在现实世界中能产生实际价值与影响的研究方向。”

当前的工作重点，是将Codex在编程领域所展现出的强大问题解决与自动化能力，成功地推广到通用科学领域。“编程领域正在发生翻天覆地的变化，”帕乔基指出，“我们的工作方式与一年前已完全不同。几乎不再有人持续进行繁琐的手动代码编辑了。取而代之的是，你更像一位管理者，指挥和协调着一组Codex智能体进行协作。”顺着这个逻辑推演，如果Codex能解决复杂的编程问题，那么从理论上讲，它就具备了解决任何可被形式化问题的潜力基础。

技术加速的拐点已经显现

过去几个月，OpenAI的研究确实取得了一系列值得关注的进展。其研究人员利用驱动Codex的GPT-5系列模型，在若干长期未解的数学问题上发现了新的证明思路或解法，并在一些生物学、化学和物理学领域的经典难题中，突破了以往看似无解的困境。

“目睹这些模型提出大多数博士生至少需要花费数周时间才能构思出的创新点子，我预计这项技术在不久的将来会为科学研究带来更显著的加速效应。”帕乔基对此表示乐观。

不过，帕乔基也坦承，前路依然漫长，他完全理解为何仍有一部分人对这项技术的变革潜力持审慎或怀疑态度。他认为，这种感受很大程度上取决于个人的具体工作流程和研究需求。“我能理解为什么有些人觉得它目前的实用价值还有限。”他说。

他透露，就在一年前，他自己甚至都不使用代码自动补全功能——这是生成式编程技术最基础的形态。“我过去对自己的代码质量要求非常苛刻，”他解释道，“能在vim编辑器里亲手敲出来的代码，我就倾向于自己完成。”Vim是一款深受资深程序员喜爱的文本编辑器，以其大量依赖键盘快捷键而非鼠标操作的高效风格著称。

但亲眼见证了最新一代模型的实际表现后，他的观念发生了转变。虽然目前仍不会将复杂的系统架构设计任务完全交由AI主导，但在需要快速验证多个想法或原型时，AI已成为节省时间的利器。“现在，一个周末就能让AI跑完以前我需要花费一整周编写代码才能完成的实验流程。”他分享道。

“我还没有感觉到它已经到了可以完全放手、让它主导整个复杂系统设计的程度，”他补充说，“但当你亲眼看到它完成了一件原本需要消耗你一周工作量的事情时，这种效率上的巨大提升是难以反驳的。”

帕乔基的核心计划是，大幅增强Codex这类工具现有的问题解决能力，然后将其成功推广到各个科学领域。唐尼也认为自动化研究员的构想极具吸引力：“如果明天早上回到办公室，发现AI智能体已经完成了一堆工作，有新的实验结果等着你审阅，那将会是非常令人兴奋的场景。”

但他也提醒，构建这样一个高度可靠的全自动研究系统，可能比帕乔基目前描述的更为困难。去年夏天，唐尼和其同事在一系列科学任务上测试了多个顶尖的大语言模型。OpenAI当时最新的GPT-5模型虽然表现领先，但仍然会犯不少错误。

“如果你需要把多个任务步骤串联在一起，那么系统连续做对好几个步骤的联合概率往往会显著下降。”他指出。唐尼承认这个领域进展神速，他尚未测试两周前OpenAI发布的最新版本GPT-5.4。“因此，那些旧的测试结果可能已经不能准确反映当前的最前沿水平了。”他说道。

安全性与治理：亟待解决的关键问题

那么，一个能在几乎无人监督下独立解决复杂世界级问题的AI系统，会带来哪些潜在风险？帕乔基告诉《麻省理工科技评论》，OpenAI内部一直在持续且深入地进行相关风险的讨论。

“如果你相信AI即将显著加速科学研究，包括对AI自身技术的研究，那么这对整个世界而言都将是一个巨大的范式变化，一件影响深远的大事。”他说，“随之而来的，是一些严肃且尚未解决的重大问题。如果它如此聪明、如此能干，能够自主运行整个研究项目，万一它做出了有害的行为或产生了危险的成果呢？”

在帕乔基看来，风险可能以多种形式出现：系统可能因目标错配而失控，可能被恶意行为者黑客入侵并滥用，也可能仅仅是误解或曲解了人类研究者给出的初始指令。

目前，OpenAI应对这些问题的主要技术手段之一，是训练其推理模型在工作过程中，详细地“汇报”或记录它们正在执行的每一步推理。这种用于监控大语言模型内部“思考”过程的方法，被称为“思维链监控”。

简而言之，大语言模型在逐步执行复杂任务时，会被训练在一个类似“数字草稿本”的独立区域，实时记录自己的思考步骤与中间结论。研究人员可以通过事后分析这些“思维笔记”，在一定程度上评估和审计模型的行为逻辑与安全性。近日，OpenAI发布了关于如何在内部使用思维链监控来深入研究Codex行为的新技术细节。

“一旦未来AI研究员系统开始在大型数据中心里长时间自主运行，我认为思维链监控将成为我们真正依赖的核心安全机制之一。”帕乔基表示。

其核心设想是，利用其他经过严格安全对齐的大语言模型，来实时监控AI研究员的“思维草稿本”，从而在潜在的不良行为酿成实际危害之前就将其识别并中断，而不是试图从一开始就完全、绝对地杜绝任何不良行为的发生。毕竟，人类目前对大语言模型内部运作机制的理解还不够深入，无法做到完全掌控其所有行为。

“我觉得要真正宣布‘好了，AI安全问题彻底解决了’，还需要很长很长时间，”他说，“在人类能真正完全信任这些高度自主的系统之前，必要的技术限制和运行沙箱肯定是不可或缺的。”帕乔基认为，能力强大的AI模型应该被部署在严格隔离的沙箱环境中，与任何它们可能破坏或利用来造成现实伤害的资源隔离开来。

眼下，AI工具已被证实可用于发起新型、更复杂的网络攻击，也有专家担心它们可能被用于设计合成病原体作为生物武器。“这将是一种非常奇特且强大的能力。这是一种在某些方面前所未有的、高度集中的智能，”帕乔基分析道，“想象一下，你进入这样一个世界：一个数据中心就能完成如今需要OpenAI或Google整个庞大组织才能完成的研究工作。过去需要大型机构才能推动的突破，未来或许几个人加上强大的AI就能实现。”他认为，这对全球各国政府而言，将是一个巨大的治理与监管挑战。

但有些人会尖锐地指出，政府本身可能就是问题的一部分。例如，美国政府已公开表示希望在军事领域应用AI。Anthropic近期与五角大楼的合作争议表明，社会各界对于这项强大技术应该如何被使用、由谁来划定伦理与安全的红线，还远未达成共识。在那场风波之后，OpenAI选择站出来与五角大楼签署了合作协议，取代了其竞争对手的位置。整个局面依然充满变数与不确定性。

《麻省理工科技评论》就此追问帕乔基：他是真的相信外部力量（如政府、国际组织）能妥善解决这些挑战，还是作为塑造未来的关键技术设计者之一，感受到了强烈的个人责任？“我确实感受到了深切的个人责任，”他坦诚回答，“但我并不认为OpenAI能够仅凭一己之力就解决所有问题，无论是将技术推向某个特定方向，还是以某种特定方式设计产品。我们肯定需要政策制定者、伦理学家和国际社会的大量参与和协作。”

那么，我们究竟身处这场技术革命浪潮的何处？真的走在通往帕乔基所描绘的那种高度自主AI研究员的道路上吗？“我在这个AI研究领域待了二十多年，已经不敢轻易断言自己对某些关键能力还有多远的距离预判了。”他坦言道。

OpenAI的公开使命是确保通用人工智能（AGI）——一种假想的未来技术，许多AI乐观派相信它将在大多数认知任务上达到或超越人类水平——能够造福全人类。其计划是通过率先造出AGI并引导其向善来实现这一目标。但值得注意的是，帕乔基在整个对话中只提到过一次AGI，并且很快用“具有经济与社会变革性力量的技术”这个更具体的说法进行了替代。

他强调，当前的大语言模型和人脑的工作方式存在本质不同。“它们在某些方面和人类表面上相似，因为它们基本上是在人类生成的语言数据上训练的。但它们不是通过生物进化形成的，也不像人类思维那样高效和节能。”

“即使到了2028年，我也不预期我们会得到一个在所有认知维度上都和人类一样聪明的系统。”他总结道，“我不认为那会在短期内发生，但我也认为那并非实现巨大价值的绝对必要条件。这项技术最有趣之处在于，你不需要在所有方面都和人一样聪明，就能产生巨大的经济与社会变革力量。”

来源:https://www.53ai.com/news/LargeLanguageModel/2026032212094.html

上一篇：中关村两院全球招募AI时代架构师定义未来

下一篇：工信部将加强汽车标准体系顶层设计