当前位置: 首页
AI
朱哲清解析RL智能体架构:AI产品的骨骼与神经设计

朱哲清解析RL智能体架构:AI产品的骨骼与神经设计

热心网友 时间:2026-05-16
转载

在Pokee.ai正式内测之前,我们其实已经提前感受了这款智能体的能力。一次电话会议邀约时,对方在微信上轻描淡写地说:“你发我邮件就行,我的Agent能自动生成日程表。”

说这话的人是朱哲清,知乎和小红书上的活跃分享者,也是强化学习领域一颗备受瞩目的新星。他和团队在2023年12月开源了强化学习框架Pearl,上线首日就在GitHub上斩获540颗星,如今已升至2.8k。

时间拨回2016年,AlphaGo击败李世石的那个夜晚,当时还是杜克大学学生的朱哲清,捧着手机静坐在校园教堂前。那一刻他意识到,AI已不再局限于实验室,正大步迈向真实世界。他由此踏入强化学习的大门,并成为其坚定的信徒,即便在这一技术路径跌入最低谷时也未曾动摇。

此后,他在Meta带领一度边缘化的强化学习团队逆势突围,将技术成功部署于广告竞价、推荐系统等核心业务,每年为公司创造数亿美元的价值。然而,升任至E7级别后,一个根本性问题始终萦绕在他心头:面对纷繁复杂的现实问题,是否存在一条真正通用的强化学习路径,能打造出普适的智能体?

怀揣这个疑问,半年多前,他结束了七年半的Meta生涯,投身AI Agent创业。创业维艰,他坦言这半年几乎无休。团队仅四人,却从模型架构、自动化训练、部署,到基础设施和产品,一手包办,最终在四月的最后两天推出了内测版Pokee.ai。

借此机会,《AI产品十人谈》系列对话朱哲清,深入探讨了他对强化学习与智能体的思考、探索与实践。谈及创业,这位一向冷静的研究者也难掩激动,正如他在知乎上所写:这波AGI的浪潮真的很大,亲自踏浪才不会后悔。

以下为对话实录,内容经过不改变原意的编辑整理。

一个坚定的RL信仰者与他的ASI野心

AI科技评论:从你的学术背景和工作经历来看,你一直在深耕强化学习。最早是什么契机让你接触这个领域的?

朱哲清:我接触得很早,大概在2016年,本科二年级的时候。那时就开始学习和研究一些偏规划方向的强化学习内容。

李世石与AlphaGo的那场对决,影响非常深远。当时我正在上一门关于强化学习的AI课程,比赛之后,这门课突然爆满。可以说,那是强化学习第一次真正走入大众视野的高光时刻,AI在围棋上战胜人类,彻底改变了人们的认知。随后几年,AlphaStar在《星际争霸》等复杂游戏中的突破,也让更多人关注RL。但很快,我也亲身经历了这个领域的“冷却期”。

当我正式步入职场后,发现强化学习的热度急转直下。原因很现实:RL始终难以跳出“游戏环境”的舒适区。它的训练强烈依赖精心构建的环境和明确的反馈机制,而这在真实世界中极难复现。围棋、电子游戏规则清晰,反馈路径明确。但现实任务,比如搜索排序、内容推荐,其反馈往往不是人为预设好的,这就使得我们很难构建出合适的训练环境来承接RL的策略优化过程。即便是AlphaGo的核心成员Da vid Silver,之后尝试将技术迁移到现实世界,最终也不得不退回数学证明这类反馈机制更明确的任务。

所以,AlphaGo之后虽有一波热潮,但因落地艰难,热度很快消退。真正将RL重新拉回人们视野的,其实是RLHF的兴起。从2017、2018年到2022年之前,RL基本处于低谷。那时的主流观点认为,Transformer似乎能解决一切,算法不再重要,数据和模型规模才是关键,RL仿佛已经“过时”了。

但我没有放弃,始终坚信RL的价值在于找到正确的落地路径。在Meta的那几年,我见证了整个RL团队从高峰走向边缘,从二十几人缩减到三人,公司甚至考虑解散团队。就在那个时间点,我主动请缨:“把这个团队交给我试试。如果做不好,怎么处理我都行。但如果我带起来了,请给我发展的空间。”

就这样,我从三个人开始,一步步将团队重新带回十几人的规模。可以说,我完整经历了RL从爆发、低谷到新一轮复苏的全过程,而且我们的“复苏”甚至比RLHF重新火起来还要早一些。

AI科技评论:你如此坚信RL的理由是什么?

朱哲清:核心原因很简单:单靠“预测”不足以解决复杂任务。举个例子,假如你要做一个关于“人工智能与强化学习”的专题报道,需要写三四篇文章。有两种展开方式。

第一种是“走到哪算哪”:不设定清晰终点,写一篇预测下一篇,路径发散。

第二种是“目标驱动”:明确目标是让读者理解RL的重要性。基于此,你会倒推:先列举RL的应用案例,再引申其现实价值,最后讨论其独特优势。

这两种思维路径本质不同。后者——以目标为导向、倒推任务路径,才是人类解决复杂问题的典型模式。你不可能靠随机推进来系统完成一个复杂项目。

强化学习的本质优势就在于此:它的思维结构是围绕“目标驱动”构建的。只有围绕明确目标,不断调整策略、规划路径,才能真正攻克复杂问题。

所以当时我就认定,即使未来模型再大、数据再多,如果缺乏明确的目标驱动和基于奖励机制的主动规划执行能力,就永远无法真正完成复杂任务。这就是我坚持RL的底层逻辑。

AI科技评论:所以你在Meta证明了这份坚持是正确的?

朱哲清:接手前,RL团队同时对接多个项目,只做咨询类工作,成果少,地位边缘。我接手后做了一个果断决定:只保留一个项目,集中所有资源,把它做到真正有说服力、有价值。结果就是,我们为公司带来了一个年收入潜力超过5亿美元的应用点。

AI科技评论:你觉得关键做对了什么?

朱哲清:这背后有个前提,就是你自身必须对RL有非常深刻的认知,不仅要懂算法,更要能将其落地到复杂、真实的应用场景中。

我们确实看到RL算法出现通用性迹象,但距离一个真正一以贯之的通用RL框架还很远。我们追寻的目标是,打造一种能用RL逻辑从头到尾贯穿的通用智能体。无论面对什么任务,只要丢给它,就能自主规划、自主解决。

这其中更本质的问题是:面对众多不同类型的问题,是否存在一种真正通用的RL路径?这是我在2024年10月离开Meta前,团队一直在探索的核心议题。

AI科技评论:所以你一直在寻找一种底层通用、能大范围解决问题的RL框架?

朱哲清:因为RL本身有很多天然限制,比如离线学习问题。你可以从数据集中学到东西,但离线数据与真实环境差异巨大。离线学到的策略如何安全高效地应用到线上?差异如何修正?线上运行后,如何持续收集新数据、不断优化,同时避免性能退化?

所有这些问题,如果每次都靠单独的技巧和特殊设定去解决,就永远不可能有真正通用的方法。所以我们想要的是一整套统一的结构性解决方案。从我的角度看,RL是一个被严重低估、也未被充分开发的方向,目前大多仍扮演“辅助工具”的角色。

无论是OpenAI的RLHF,还是DeepMind的一些模型,大多是在已有预训练模型基础上进行增强,让它在某个维度上“更好”。所以目前的RL更多是一种“增强器”,而非主角。

AI科技评论:你认为它尚未成为“主导智能”的那部分技术。

朱哲清:从个人理解看,当前这波AI已经达到了“近人类级别智能”的80%到90%。虽然AGI概念模糊,但我们可以先不定义它。那么下一步呢?很多人谈的是“超人类智能”。真要往这个方向走,强化学习是绕不开的路径。

因为大型语言模型最擅长的是知识回忆和模仿,它能提出建议、生成文本,但缺乏“结构化解决问题”的能力,即没有“主动性”或“目标驱动性”。而RL的本质就是解决目标导向的问题。你不能靠“模仿”去解决从未见过的复杂任务。你需要策略、目标、反馈机制,需要在未知环境中自主探索和优化。这才是真正的智能。

而且,现在很多程序员、算法工程师的基础工作,包括模型微调、推理部署,很快都会被AI自动化工具替代。甚至连预期管理、内容生成类工作,也会被“会表达、会规划”的AI接管。这意味着,下一代智能突破口的研发,是最值得投入时间的事。

这也是我选择离开Meta创业的原因。我们现在做的,不只是工具产品,而是在构建一个“能力系统”。先通过工具加规划接近智能体的标准,再逐步扩展其工具库、操作空间和决策深度。目标不是像人一样完成任务,而是超越人类在某些任务中的策略选择和规划能力。

这就是我所理解的“通向超人类智能”的路径。

什么才是下一代的Agent?

AI科技评论:谈谈你的AI Agent产品Pokee.ai吧。

朱哲清:Pokee.ai是一款具备强执行力的通用AI智能体。它不止于“生成内容”,而是一个能真正动手完成复杂任务的智能执行体。你只需用自然语言下达指令,比如“生成一组社交媒体内容并发布”,Pokee.ai就能在无需任何脚本配置的前提下,自动调用合适工具,完成从内容创作、图片生成、格式适配到平台发布的全过程。

这种执行力不止于社媒。我们的工程团队已用它自动生成Zoom会议纪要,也能通过一句“搭建一个AI Agent网站”,让它自动创建GitHub仓库,编写HTML+JS页面,并发布到GitHub Pages,全程无需开发者手动介入。

此外,Pokee.ai还能在商业场景提升效率。比如安排团队会议,只需告诉它“周五开个关于AI Agent市场趋势的会”,它就会完成调研、搜图、制作幻灯片、安排日程、发送日历邀请并附上资料链接。原本需要几小时的工作,现在几分钟就能搞定。

更关键的是,在对比实验中,面对成千上万的工具,Pokee.ai保持了超过97%的执行准确率。而其他基于LLM的智能体在工具数超过500时,性能就会显著下降。Pokee.ai的优势在于其可扩展性和稳定性,无论工具数量如何增长,其响应成本几乎不变,这使其成为真正有机会覆盖全网服务的智能体架构。

未来,我们也会开放API和SDK,让每个团队、每位开发者都能拥有属于自己的Pokee智能体,用最自然的方式指挥最复杂的任务。

AI科技评论:听起来你做的AI智能体,不只是工程产品,更像是在研究“下一代智能体”。

朱哲清:是的,我们团队一直是两条腿走路。一方面是做“早期产品”——即用户能体验到的智能体系统,它可以帮你规划、执行任务,有清晰的人机交互流程,也支持外部应用落地。这部分要服务好市场,满足用户期待,不能偏离“智能体该有的样子”。

另一方面,我个人把很大一部分精力投在了研究上。现在的很多核心代码,包括RL训练、模型结构设计,都是我亲自写的。我大概一半时间花在技术产品、商业和团队沟通上;另一半全在研究。

我们一直在推进,也是团队最重要、我个人最长期关注的目标是:到底有没有一套通用的RL结构,能够横跨多个场景,真正做出“具身智能体”?

AI科技评论:所以你们一开始其实是先做一个技术落地证明?

朱哲清:对,刚开始做Pokee.ai时,核心目标是先证明这个技术能打硬仗。那时无论是投资人还是业界,对“RL+智能体”到底意味着什么,其实都很模糊。甚至连“智能体”具体指什么,很多人都搞不清楚。和投资人聊时,他们常反复问:“你这个技术方向到底在做什么?”、“智能体能落地成什么样?”、“你们打算怎么实现?”

所以我们公司成立两个月内,就完成了一个电商场景下的智能体系统落地:我们把SDK、API、GraphQL、命令行全都接入了智能体系统,覆盖ToB和ToC两侧。这个项目两个月内就完成了,完成度很高。对比来看,别人可能要花一年才能做出的产品,我们在短时间内做得功能更全、更稳定。这本身就是很强的技术证明。

但我们没有止步。很快意识到,要证明智能体真正“通用”,仅靠几十上百个工具远远不够。于是我们迅速扩展到上千、上万个工具级别的调用能力,专门训练和验证智能体是否具备普适性的规划和调度能力。

AI科技评论:目前你们用的模型是什么样的?是完全自研的吗?

朱哲清:我们没有使用任何开源机构的模型,所有模型都是完全自主训练的。

我们的架构是这样的:有一个小型语言模型作为人机交互界面,相当于“UI层”,用于理解用户指令和上下文。但真正的“决策逻辑”和“行动执行”部分,全部基于我们自研的强化学习结构完成。

AI科技评论:为什么一定要自己预训练语言模型?是觉得现成的大模型不好用吗?

朱哲清:其实我们做的并不是一个语言模型。我们的强化学习模型本质上是为决策设计的,而不是用来生成自然语言的。现在很多人的做法是直接套用别人的大语言模型,然后在外面加一层RL层去控制调用。这种方式乍看效率高,但我们评估发现,用“壳”套语言模型来做智能体,无法达到商用级别的精度和鲁棒性。

首先是成本,我们自研模型的成本大概是同等规模语言模型的十分之一。其次,从设计哲学上说,我们认为当前语言模型在“决策建模”上存在本质问题。比如,大模型做决策通常是“逐词生成”的过程。但如果你在进行一个复杂、多步、有规划的任务决策,那根本就不应该是这种结构。我们认为从底层逻辑上,这种设计就不对。

所以我们重构了整个系统,它不是语言生成驱动的,而是由强化学习驱动的结构化决策系统。

AI科技评论:那现在很多人可能做得比“纯套壳”更多一点,会尝试对LLM做后训练,比如基于RL做定制优化,你怎么看?

朱哲清:也不能说完全不可取,在某些场景确实比“直接套壳”要强。但关键问题是,后训练的目标是什么?你到底要解决什么问题?你得从头解构这个系统,只有把整个系统逻辑重新定义并重建,才有可能做出一个真正“决策能力强”的智能体。

现在大家做RL时,都默认是在语言模型架构上训练LLM,这会把问题想得太狭窄。我们选择跳出这种范式,用自己的方式去重构决策架构,并借助RL解决真正核心的规划与执行问题。

AI科技评论:如果是大模型公司自己来做智能体,会不会更有优势?

朱哲清:这要看你想做的智能体是什么类型。如果你定义的智能体只是处理语言相关任务,比如整理、检索、总结、推理,那么大型语言模型公司确实有很大优势,因为他们在语言理解和生成上积累深厚。

但如果你定义的智能体是能在真实世界中行动、调用工具、与环境交互的那种,那么单纯依赖语言模型就不够了。因为这时,智能体的决策空间、动作层、状态层,已经完全超出了文字表述,涉及复杂环境建模、工具链调用、状态变更,这些与语言的直接关系并不大。

举个例子:如果你要做供应链管理智能体,处理仓库、运输、库存的路径规划,状态是网状图,不是文字。那么你的智能体需要理解和操作复杂结构化数据,而不仅仅是生成几段自然语言。在这种情况下,大模型公司在语言方面的积累优势就不明显了。所以,谁有优势,取决于你定义的智能体是哪种类型。

AI科技评论:那你觉得,未来有没有可能出现一种真正“通用”的智能体?比如它既能做供应链优化,也能处理日常生活任务?

朱哲清:我认为不会存在一个单一的“超级智能体”来做所有事情。更可能出现的是一种分层结构:顶层有一个统一调度的总控智能体,它根据用户输入分配任务给专业的垂类或服务方智能体,各自处理特定领域问题,比如供应链、内容创作、信息检索等。

现在大家说的“多智能体系统”,其实跟学术界的定义还有点差距。真正学术意义上的多智能体,指的是多个智能体之间要么有通信协调,要么是互相竞争或协作去共同完成复杂任务。目前市面上的“多智能体”,更多是简单的任务分工。但这种多体结构,确实是未来实现通用智能体的重要路径。

如果这样发展下去,未来的形态可能是:用户不再需要手动使用各种App或工具。只需要给系统输入一个自然语言指令或目标,比如“帮我完成这个项目”、“帮我制定旅行计划”。后台有一整套分布式、模块化的智能体体系,自动完成从信息检索、决策规划到实际执行的全部步骤。

就像今天的互联网,前端是浏览器,后端是各种网页和应用。未来的智能体体系,就是一个没有界面的“无形互联网”。用户只需要给出目标,无需关注工具细节和操作过程。

AI科技评论:在智能体的终极形态下,浏览器可能会被取代吗?

朱哲清:浏览器在今天可以理解为人与互联网交互的一种通用前端。但如果未来智能体直接与其他智能体对接、交互,那么人作为中介、通过浏览器访问网站的过程就失去意义了。

长期来看,浏览器这种前端形态可能会消失,因为未来网络中的接口将主要是智能体对智能体的接口。人不再需要直接面对网页或APP界面,而是通过自己的智能体发出需求,由智能体与其他智能体进行交互和任务协作。

所以,未来互联网可能是以智能体交互为核心的新网络体系,而不是依靠前端浏览器来组织信息。

AI科技评论:那未来智能体之间的接口,主要是依靠MCP来完成吗?

朱哲清:也不一定。虽然我们也会支持MCP,但MCP是不是最后统一的标准,目前还不好说。但可以肯定的是,MCP起到了推动作用——至少让大家有了一套可以使用的基础接口,不至于完全没有标准。

未来我们也会提供自己的更简化版接口,希望把智能体之间的连接做得更轻量、更无感、更通用,而不仅仅是基于现在MCP这种复杂模式。

AI科技评论:在你看来,智能体到底是什么?你有自己的定义吗?

朱哲清:我的理解是这样的:智能体的核心在于“感知”和“执行”。如果一个智能体不能自主执行,或者说它做完一件事后,对环境没有产生任何实际变化,那么在我看来,它只是一个生成型智能体,而不是真正的执行型智能体。

举个简单例子:如果你写了一篇文章,但它既没有发表,也没有被人阅读,没有后续交互,那它就只是一个生成行为。但如果你写完文章后,自主决策在哪个平台发布,发布后根据用户反馈不断调整优化,使得账号粉丝数、曝光量发生变化——那么你的行为就对世界产生了不可逆的影响。

所以,一个真正的智能体,必须满足两个标准:它的行为必须能对环境产生实际的、不可逆的影响,并且要能自主规划并执行任务。如果一个系统只是生成内容,真正决策和执行还是靠人来完成,那么它在我这里就不算是真正意义上的智能体。

比如说,用户只要说“帮我运营我的公众号”,智能体自己去检索工具、规划路径、完成执行,用户无需知道有哪些工具、也无需干预具体步骤。这才是我们理解的下一代智能体的形态。

来源:https://www.leiphone.com/category/ai/vwGwJe9UAAQ6HRCJ.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
网易CodeWave人工智能开发平台重塑企业智能研发流程

网易CodeWave人工智能开发平台重塑企业智能研发流程

2025年10月14日,网易CodeWave在主题沟通会上重磅发布了“用AI重构研发方式”的战略愿景。会上,一系列全新的智能开发能力正式亮相,旨在实现从需求分析、产品设计到代码开发、部署运维及迭代优化的全流程智能化赋能。这不仅是开发工具的升级,更代表了企业级软件开发范式的深刻演进。作为专注于企业级市

时间:2026-05-16 10:58
汪军与Rich Sutton对话:大模型是否偏离了智能本质的探索

汪军与Rich Sutton对话:大模型是否偏离了智能本质的探索

在刚刚落幕的RL China 2025开幕式上,一场跨越地域的思想对话备受瞩目。伦敦大学学院的汪军教授与图灵奖得主、被誉为“强化学习之父”的Richard Sutton,从学科根基出发,共同探讨了智能的本质与未来方向。这场对话,不仅关乎技术路径,更触及了人工智能研究的初心与使命。 作为强化学习领域的

时间:2026-05-16 10:58
高德地图AI应跳出传统竞争思维专注创新

高德地图AI应跳出传统竞争思维专注创新

高德进军到店业务的消息,近期在行业内引发了广泛关注。昨日,官方正式揭晓答案——并非重启口碑业务,而是推出了“高德扫街榜”。虽然方向已明,但随之而来的疑问却更多了。 过去数月,外卖市场的补贴竞争异常激烈。如今高德加码本地生活服务,是否意味着新一轮补贴大战即将开启?十年前,美团在团购领域脱颖而出,如今阿

时间:2026-05-16 10:58
Win11任务栏位置自定义设置与文件搜索效率优化指南

Win11任务栏位置自定义设置与文件搜索效率优化指南

微软向Windows预览体验计划成员推送了Win11系统的新一轮更新,重点改进了任务栏的个性化设置与搜索功能。用户现在可以自由将任务栏放置在屏幕的上下左右任意一边,并可选更紧凑的“小任务栏”模式以节省屏幕空间。同时,系统搜索框的逻辑得到优化,在用户查找内容时,会优先显示高度匹配的本地文件和应用程序,

时间:2026-05-16 10:58
开发者如何抓住GDC千亿商机与财富机遇

开发者如何抓住GDC千亿商机与财富机遇

人工智能创业者Steven回顾艰辛历程,从技术理想转向现实挑战,面临融资与团队生存压力。全球开发者先锋大会汇聚顶尖投资机构,提供项目路演与资本对接平台,成为其寻求突破的关键机遇。大会旨在探索大模型产业化落地,推动商业闭环,助力开发者实现价值。

时间:2026-05-16 10:58
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程