朱哲清解析RL智能体架构：AI产品的骨骼与神经设计

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

朱哲清解析RL智能体架构：AI产品的骨骼与神经设计

热心网友时间：2026-05-16

转载

在Pokee.ai正式内测之前，我们其实已经提前感受了这款智能体的能力。一次电话会议邀约时，对方在微信上轻描淡写地说：“你发我邮件就行，我的Agent能自动生成日程表。”

说这话的人是朱哲清，知乎和小红书上的活跃分享者，也是强化学习领域一颗备受瞩目的新星。他和团队在2023年12月开源了强化学习框架Pearl，上线首日就在GitHub上斩获540颗星，如今已升至2.8k。

时间拨回2016年，AlphaGo击败李世石的那个夜晚，当时还是杜克大学学生的朱哲清，捧着手机静坐在校园教堂前。那一刻他意识到，AI已不再局限于实验室，正大步迈向真实世界。他由此踏入强化学习的大门，并成为其坚定的信徒，即便在这一技术路径跌入最低谷时也未曾动摇。

此后，他在Meta带领一度边缘化的强化学习团队逆势突围，将技术成功部署于广告竞价、推荐系统等核心业务，每年为公司创造数亿美元的价值。然而，升任至E7级别后，一个根本性问题始终萦绕在他心头：面对纷繁复杂的现实问题，是否存在一条真正通用的强化学习路径，能打造出普适的智能体？

怀揣这个疑问，半年多前，他结束了七年半的Meta生涯，投身AI Agent创业。创业维艰，他坦言这半年几乎无休。团队仅四人，却从模型架构、自动化训练、部署，到基础设施和产品，一手包办，最终在四月的最后两天推出了内测版Pokee.ai。

借此机会，《AI产品十人谈》系列对话朱哲清，深入探讨了他对强化学习与智能体的思考、探索与实践。谈及创业，这位一向冷静的研究者也难掩激动，正如他在知乎上所写：这波AGI的浪潮真的很大，亲自踏浪才不会后悔。

以下为对话实录，内容经过不改变原意的编辑整理。

一个坚定的RL信仰者与他的ASI野心

AI科技评论：从你的学术背景和工作经历来看，你一直在深耕强化学习。最早是什么契机让你接触这个领域的？

朱哲清：我接触得很早，大概在2016年，本科二年级的时候。那时就开始学习和研究一些偏规划方向的强化学习内容。

李世石与AlphaGo的那场对决，影响非常深远。当时我正在上一门关于强化学习的AI课程，比赛之后，这门课突然爆满。可以说，那是强化学习第一次真正走入大众视野的高光时刻，AI在围棋上战胜人类，彻底改变了人们的认知。随后几年，AlphaStar在《星际争霸》等复杂游戏中的突破，也让更多人关注RL。但很快，我也亲身经历了这个领域的“冷却期”。

当我正式步入职场后，发现强化学习的热度急转直下。原因很现实：RL始终难以跳出“游戏环境”的舒适区。它的训练强烈依赖精心构建的环境和明确的反馈机制，而这在真实世界中极难复现。围棋、电子游戏规则清晰，反馈路径明确。但现实任务，比如搜索排序、内容推荐，其反馈往往不是人为预设好的，这就使得我们很难构建出合适的训练环境来承接RL的策略优化过程。即便是AlphaGo的核心成员Da vid Silver，之后尝试将技术迁移到现实世界，最终也不得不退回数学证明这类反馈机制更明确的任务。

所以，AlphaGo之后虽有一波热潮，但因落地艰难，热度很快消退。真正将RL重新拉回人们视野的，其实是RLHF的兴起。从2017、2018年到2022年之前，RL基本处于低谷。那时的主流观点认为，Transformer似乎能解决一切，算法不再重要，数据和模型规模才是关键，RL仿佛已经“过时”了。

但我没有放弃，始终坚信RL的价值在于找到正确的落地路径。在Meta的那几年，我见证了整个RL团队从高峰走向边缘，从二十几人缩减到三人，公司甚至考虑解散团队。就在那个时间点，我主动请缨：“把这个团队交给我试试。如果做不好，怎么处理我都行。但如果我带起来了，请给我发展的空间。”

就这样，我从三个人开始，一步步将团队重新带回十几人的规模。可以说，我完整经历了RL从爆发、低谷到新一轮复苏的全过程，而且我们的“复苏”甚至比RLHF重新火起来还要早一些。

AI科技评论：你如此坚信RL的理由是什么？

朱哲清：核心原因很简单：单靠“预测”不足以解决复杂任务。举个例子，假如你要做一个关于“人工智能与强化学习”的专题报道，需要写三四篇文章。有两种展开方式。

第一种是“走到哪算哪”：不设定清晰终点，写一篇预测下一篇，路径发散。

第二种是“目标驱动”：明确目标是让读者理解RL的重要性。基于此，你会倒推：先列举RL的应用案例，再引申其现实价值，最后讨论其独特优势。

这两种思维路径本质不同。后者——以目标为导向、倒推任务路径，才是人类解决复杂问题的典型模式。你不可能靠随机推进来系统完成一个复杂项目。

强化学习的本质优势就在于此：它的思维结构是围绕“目标驱动”构建的。只有围绕明确目标，不断调整策略、规划路径，才能真正攻克复杂问题。

所以当时我就认定，即使未来模型再大、数据再多，如果缺乏明确的目标驱动和基于奖励机制的主动规划执行能力，就永远无法真正完成复杂任务。这就是我坚持RL的底层逻辑。

AI科技评论：所以你在Meta证明了这份坚持是正确的？

朱哲清：接手前，RL团队同时对接多个项目，只做咨询类工作，成果少，地位边缘。我接手后做了一个果断决定：只保留一个项目，集中所有资源，把它做到真正有说服力、有价值。结果就是，我们为公司带来了一个年收入潜力超过5亿美元的应用点。

AI科技评论：你觉得关键做对了什么？

朱哲清：这背后有个前提，就是你自身必须对RL有非常深刻的认知，不仅要懂算法，更要能将其落地到复杂、真实的应用场景中。

我们确实看到RL算法出现通用性迹象，但距离一个真正一以贯之的通用RL框架还很远。我们追寻的目标是，打造一种能用RL逻辑从头到尾贯穿的通用智能体。无论面对什么任务，只要丢给它，就能自主规划、自主解决。

这其中更本质的问题是：面对众多不同类型的问题，是否存在一种真正通用的RL路径？这是我在2024年10月离开Meta前，团队一直在探索的核心议题。

AI科技评论：所以你一直在寻找一种底层通用、能大范围解决问题的RL框架？

朱哲清：因为RL本身有很多天然限制，比如离线学习问题。你可以从数据集中学到东西，但离线数据与真实环境差异巨大。离线学到的策略如何安全高效地应用到线上？差异如何修正？线上运行后，如何持续收集新数据、不断优化，同时避免性能退化？

所有这些问题，如果每次都靠单独的技巧和特殊设定去解决，就永远不可能有真正通用的方法。所以我们想要的是一整套统一的结构性解决方案。从我的角度看，RL是一个被严重低估、也未被充分开发的方向，目前大多仍扮演“辅助工具”的角色。

无论是OpenAI的RLHF，还是DeepMind的一些模型，大多是在已有预训练模型基础上进行增强，让它在某个维度上“更好”。所以目前的RL更多是一种“增强器”，而非主角。

AI科技评论：你认为它尚未成为“主导智能”的那部分技术。

朱哲清：从个人理解看，当前这波AI已经达到了“近人类级别智能”的80%到90%。虽然AGI概念模糊，但我们可以先不定义它。那么下一步呢？很多人谈的是“超人类智能”。真要往这个方向走，强化学习是绕不开的路径。

因为大型语言模型最擅长的是知识回忆和模仿，它能提出建议、生成文本，但缺乏“结构化解决问题”的能力，即没有“主动性”或“目标驱动性”。而RL的本质就是解决目标导向的问题。你不能靠“模仿”去解决从未见过的复杂任务。你需要策略、目标、反馈机制，需要在未知环境中自主探索和优化。这才是真正的智能。

而且，现在很多程序员、算法工程师的基础工作，包括模型微调、推理部署，很快都会被AI自动化工具替代。甚至连预期管理、内容生成类工作，也会被“会表达、会规划”的AI接管。这意味着，下一代智能突破口的研发，是最值得投入时间的事。

这也是我选择离开Meta创业的原因。我们现在做的，不只是工具产品，而是在构建一个“能力系统”。先通过工具加规划接近智能体的标准，再逐步扩展其工具库、操作空间和决策深度。目标不是像人一样完成任务，而是超越人类在某些任务中的策略选择和规划能力。

这就是我所理解的“通向超人类智能”的路径。

什么才是下一代的Agent？

AI科技评论：谈谈你的AI Agent产品Pokee.ai吧。

朱哲清：Pokee.ai是一款具备强执行力的通用AI智能体。它不止于“生成内容”，而是一个能真正动手完成复杂任务的智能执行体。你只需用自然语言下达指令，比如“生成一组社交媒体内容并发布”，Pokee.ai就能在无需任何脚本配置的前提下，自动调用合适工具，完成从内容创作、图片生成、格式适配到平台发布的全过程。

这种执行力不止于社媒。我们的工程团队已用它自动生成Zoom会议纪要，也能通过一句“搭建一个AI Agent网站”，让它自动创建GitHub仓库，编写HTML+JS页面，并发布到GitHub Pages，全程无需开发者手动介入。

此外，Pokee.ai还能在商业场景提升效率。比如安排团队会议，只需告诉它“周五开个关于AI Agent市场趋势的会”，它就会完成调研、搜图、制作幻灯片、安排日程、发送日历邀请并附上资料链接。原本需要几小时的工作，现在几分钟就能搞定。

更关键的是，在对比实验中，面对成千上万的工具，Pokee.ai保持了超过97%的执行准确率。而其他基于LLM的智能体在工具数超过500时，性能就会显著下降。Pokee.ai的优势在于其可扩展性和稳定性，无论工具数量如何增长，其响应成本几乎不变，这使其成为真正有机会覆盖全网服务的智能体架构。

未来，我们也会开放API和SDK，让每个团队、每位开发者都能拥有属于自己的Pokee智能体，用最自然的方式指挥最复杂的任务。

AI科技评论：听起来你做的AI智能体，不只是工程产品，更像是在研究“下一代智能体”。

朱哲清：是的，我们团队一直是两条腿走路。一方面是做“早期产品”——即用户能体验到的智能体系统，它可以帮你规划、执行任务，有清晰的人机交互流程，也支持外部应用落地。这部分要服务好市场，满足用户期待，不能偏离“智能体该有的样子”。

另一方面，我个人把很大一部分精力投在了研究上。现在的很多核心代码，包括RL训练、模型结构设计，都是我亲自写的。我大概一半时间花在技术产品、商业和团队沟通上；另一半全在研究。

我们一直在推进，也是团队最重要、我个人最长期关注的目标是：到底有没有一套通用的RL结构，能够横跨多个场景，真正做出“具身智能体”？

AI科技评论：所以你们一开始其实是先做一个技术落地证明？

朱哲清：对，刚开始做Pokee.ai时，核心目标是先证明这个技术能打硬仗。那时无论是投资人还是业界，对“RL+智能体”到底意味着什么，其实都很模糊。甚至连“智能体”具体指什么，很多人都搞不清楚。和投资人聊时，他们常反复问：“你这个技术方向到底在做什么？”、“智能体能落地成什么样？”、“你们打算怎么实现？”

所以我们公司成立两个月内，就完成了一个电商场景下的智能体系统落地：我们把SDK、API、GraphQL、命令行全都接入了智能体系统，覆盖ToB和ToC两侧。这个项目两个月内就完成了，完成度很高。对比来看，别人可能要花一年才能做出的产品，我们在短时间内做得功能更全、更稳定。这本身就是很强的技术证明。

但我们没有止步。很快意识到，要证明智能体真正“通用”，仅靠几十上百个工具远远不够。于是我们迅速扩展到上千、上万个工具级别的调用能力，专门训练和验证智能体是否具备普适性的规划和调度能力。

AI科技评论：目前你们用的模型是什么样的？是完全自研的吗？

朱哲清：我们没有使用任何开源机构的模型，所有模型都是完全自主训练的。

我们的架构是这样的：有一个小型语言模型作为人机交互界面，相当于“UI层”，用于理解用户指令和上下文。但真正的“决策逻辑”和“行动执行”部分，全部基于我们自研的强化学习结构完成。

AI科技评论：为什么一定要自己预训练语言模型？是觉得现成的大模型不好用吗？

朱哲清：其实我们做的并不是一个语言模型。我们的强化学习模型本质上是为决策设计的，而不是用来生成自然语言的。现在很多人的做法是直接套用别人的大语言模型，然后在外面加一层RL层去控制调用。这种方式乍看效率高，但我们评估发现，用“壳”套语言模型来做智能体，无法达到商用级别的精度和鲁棒性。

首先是成本，我们自研模型的成本大概是同等规模语言模型的十分之一。其次，从设计哲学上说，我们认为当前语言模型在“决策建模”上存在本质问题。比如，大模型做决策通常是“逐词生成”的过程。但如果你在进行一个复杂、多步、有规划的任务决策，那根本就不应该是这种结构。我们认为从底层逻辑上，这种设计就不对。

所以我们重构了整个系统，它不是语言生成驱动的，而是由强化学习驱动的结构化决策系统。

AI科技评论：那现在很多人可能做得比“纯套壳”更多一点，会尝试对LLM做后训练，比如基于RL做定制优化，你怎么看？

朱哲清：也不能说完全不可取，在某些场景确实比“直接套壳”要强。但关键问题是，后训练的目标是什么？你到底要解决什么问题？你得从头解构这个系统，只有把整个系统逻辑重新定义并重建，才有可能做出一个真正“决策能力强”的智能体。

现在大家做RL时，都默认是在语言模型架构上训练LLM，这会把问题想得太狭窄。我们选择跳出这种范式，用自己的方式去重构决策架构，并借助RL解决真正核心的规划与执行问题。

AI科技评论：如果是大模型公司自己来做智能体，会不会更有优势？

朱哲清：这要看你想做的智能体是什么类型。如果你定义的智能体只是处理语言相关任务，比如整理、检索、总结、推理，那么大型语言模型公司确实有很大优势，因为他们在语言理解和生成上积累深厚。

但如果你定义的智能体是能在真实世界中行动、调用工具、与环境交互的那种，那么单纯依赖语言模型就不够了。因为这时，智能体的决策空间、动作层、状态层，已经完全超出了文字表述，涉及复杂环境建模、工具链调用、状态变更，这些与语言的直接关系并不大。

举个例子：如果你要做供应链管理智能体，处理仓库、运输、库存的路径规划，状态是网状图，不是文字。那么你的智能体需要理解和操作复杂结构化数据，而不仅仅是生成几段自然语言。在这种情况下，大模型公司在语言方面的积累优势就不明显了。所以，谁有优势，取决于你定义的智能体是哪种类型。

AI科技评论：那你觉得，未来有没有可能出现一种真正“通用”的智能体？比如它既能做供应链优化，也能处理日常生活任务？

朱哲清：我认为不会存在一个单一的“超级智能体”来做所有事情。更可能出现的是一种分层结构：顶层有一个统一调度的总控智能体，它根据用户输入分配任务给专业的垂类或服务方智能体，各自处理特定领域问题，比如供应链、内容创作、信息检索等。

现在大家说的“多智能体系统”，其实跟学术界的定义还有点差距。真正学术意义上的多智能体，指的是多个智能体之间要么有通信协调，要么是互相竞争或协作去共同完成复杂任务。目前市面上的“多智能体”，更多是简单的任务分工。但这种多体结构，确实是未来实现通用智能体的重要路径。

如果这样发展下去，未来的形态可能是：用户不再需要手动使用各种App或工具。只需要给系统输入一个自然语言指令或目标，比如“帮我完成这个项目”、“帮我制定旅行计划”。后台有一整套分布式、模块化的智能体体系，自动完成从信息检索、决策规划到实际执行的全部步骤。

就像今天的互联网，前端是浏览器，后端是各种网页和应用。未来的智能体体系，就是一个没有界面的“无形互联网”。用户只需要给出目标，无需关注工具细节和操作过程。

AI科技评论：在智能体的终极形态下，浏览器可能会被取代吗？

朱哲清：浏览器在今天可以理解为人与互联网交互的一种通用前端。但如果未来智能体直接与其他智能体对接、交互，那么人作为中介、通过浏览器访问网站的过程就失去意义了。

长期来看，浏览器这种前端形态可能会消失，因为未来网络中的接口将主要是智能体对智能体的接口。人不再需要直接面对网页或APP界面，而是通过自己的智能体发出需求，由智能体与其他智能体进行交互和任务协作。

所以，未来互联网可能是以智能体交互为核心的新网络体系，而不是依靠前端浏览器来组织信息。

AI科技评论：那未来智能体之间的接口，主要是依靠MCP来完成吗？

朱哲清：也不一定。虽然我们也会支持MCP，但MCP是不是最后统一的标准，目前还不好说。但可以肯定的是，MCP起到了推动作用——至少让大家有了一套可以使用的基础接口，不至于完全没有标准。

未来我们也会提供自己的更简化版接口，希望把智能体之间的连接做得更轻量、更无感、更通用，而不仅仅是基于现在MCP这种复杂模式。

AI科技评论：在你看来，智能体到底是什么？你有自己的定义吗？

朱哲清：我的理解是这样的：智能体的核心在于“感知”和“执行”。如果一个智能体不能自主执行，或者说它做完一件事后，对环境没有产生任何实际变化，那么在我看来，它只是一个生成型智能体，而不是真正的执行型智能体。

举个简单例子：如果你写了一篇文章，但它既没有发表，也没有被人阅读，没有后续交互，那它就只是一个生成行为。但如果你写完文章后，自主决策在哪个平台发布，发布后根据用户反馈不断调整优化，使得账号粉丝数、曝光量发生变化——那么你的行为就对世界产生了不可逆的影响。

所以，一个真正的智能体，必须满足两个标准：它的行为必须能对环境产生实际的、不可逆的影响，并且要能自主规划并执行任务。如果一个系统只是生成内容，真正决策和执行还是靠人来完成，那么它在我这里就不算是真正意义上的智能体。

比如说，用户只要说“帮我运营我的公众号”，智能体自己去检索工具、规划路径、完成执行，用户无需知道有哪些工具、也无需干预具体步骤。这才是我们理解的下一代智能体的形态。

来源:https://www.leiphone.com/category/ai/vwGwJe9UAAQ6HRCJ.html

上一篇： ICLR 2025 顶尖科学家关注的十大人工智能趋势

下一篇： DeepSeek与面壁智能大模型技术路径深度解析

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

我的世界基岩版难度调整指令difficulty使用教程

红色沙漠延长飞行距离技巧与实用方法详解

三角洲行动电脑配置要求与最低配置推荐指南

王者荣耀世界零氪开荒阵容搭配攻略

Poki官方网页版免费小游戏大全在线即玩入口

云鸣潮网页版免费在线玩官方正版直接进入

红色沙漠勇武之步套装获取方法全攻略

三角洲行动陷阱拆除与战术道具使用全攻略

深海迷航手游控制台开启方法详细教程

三国志幻想大陆刘备命魂觉醒攻略与技能解析

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

鸣潮赛博朋克联动角色全名单与获取指南

阴阳师5月8日补偿公告内容与领取方法详解

刺客信条影下载安装教程与新手入门指南

崩坏星穹铁道4.2下半卡池抽取指南与角色分析

牧场物语风之集市快速赚钱攻略与技巧分享

崩坏星穹铁道绯樱全面培养指南光锥遗器阵容搭配详解

艾尔登法环黑夜君临蓝量提升方法详解

王者荣耀世界英雄强度排行榜最新榜单

帕帕拉猩红辣妹强度解析吉星派对角色实战评测

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

朱哲清解析RL智能体架构：AI产品的骨骼与神经设计

一个坚定的RL信仰者与他的ASI野心

什么才是下一代的Agent？

网易CodeWave人工智能开发平台重塑企业智能研发流程

汪军与Rich Sutton对话：大模型是否偏离了智能本质的探索

高德地图AI应跳出传统竞争思维专注创新

Win11任务栏位置自定义设置与文件搜索效率优化指南

开发者如何抓住GDC千亿商机与财富机遇