面包屑图标 当前位置: 首页
AI资讯
热点详情

OWL团队万字分享:复现Manus最佳团队如何看待Agentic AI落地现状

AI热点日报
AI热点日报时间:2026-07-05
热点解读

OWL项目复刻了Manus的核心功能,提出OptimizedWorkforceLearning技术,实现多智能体协作处理现实任务。与Manus基于CodeAgent和Claude-3 5的闭源方案不同,OWL完全开源且高度可定制。性能差距主要源于模型与工具差异,MCP协议有助于统一工具接口。垂直领域Agent更值得发力,Agent产品将带来更自主的人机交互,

# 深度解析AI Agent领域最新动态:OWL项目技术、商业逻辑与Agentic AI落地现状 本教程将深度解析AI Agent领域的最新动态,聚焦于OWL项目与Manus的技术差异、AI Agent的技术原理与商业落地现状,以及CAMEL-AI开源社区的使命与未来展望。 ## 01 OWL项目的源起与Manus的技术差异 ### CAMEL-AI开源社区的使命 CAMEL-AI开源社区的使命是 **“finding the scaling laws of agent”**,简单来说,社区相信AI Agent有其独特的 **“scaling laws”**,核心工作就是探寻这些规律究竟是什么。 社区一直在专注底层技术,做了大量前沿研究,包括: - 打造世界上第一个 **multi-agent** 框架 - 第一个跨平台操控项目 **CRAB**(能同时通过UI操控手机和电脑上任意APP) - 构建了世界上第一个拥有 **100万 agent** 的multi-agent系统——**OASIS** 这些从0到1的成果,虽然耗费了大量精力,但目前受到的关注较少,社区相信它们将是未来Agent应用的重要基础设施。 > **小提示:** CRAB和OASIS都是开源项目,你可以在GitHub上找到它们的代码仓库进行学习和研究。 ### 社区的核心工作方向 社区主要在以下几个方面开展工作: 1. **搭建基础设施** - 框架、数据、Agent及其通信协议 - 面向开发者的工具 - 服务于开发者和研究人员 2. **开展前沿研究** - 与大家一起撰写论文 - 进行开放性质的研究 - OWL项目既是学术研究,也是开发者工具 ### CAMEL框架的核心特性 CAMEL是一个Agent框架,与一般框架不同的是,它**非常注重数据驱动**,从数据角度构建框架,未来AI就能实现自我发展。框架的核心特性包括: - 整合了 **multi-agent** - 拥有数据生成相关的流程 - 集成了国内外几乎所有主流模型 - 整合了大量工具 - 具备**短期记忆**、**长期记忆**功能 - 支持多种存储方式 - 有不同的基准测试用于Agent benchmark - 有多种可执行代码的解释器 - 支持**向量检索**和**Bm25检索** > **小提示:** 正是因为有CAMEL这套完备的工具库,社区团队才能快速复刻Manus的核心功能。 ### OWL项目的技术框架 OWL(猫头鹰)项目主要复刻了Manus的一些功能,提出了一种名为 **Optimized Workforce Learning** 的技术,用于通用的multi-agent协助,主要处理现实世界中的任务,比如网页检索、读取PDF、生成代码等。 **系统框架工作流程:** 1. 用户指令输入后,进入 **multi-agent系统** 2. 系统内的Agent负责执行任务 3. **AI user agent** 和 **AI助手agent** 相互协作 4. 助手agent可调用各类工具: - **web agent**:操控浏览器 - **search agent**:进行谷歌搜索或社区搜索 - **coding agent**:生成并执行代码获取结果 - **document agent**:读取并转换PDF格式 5. 任意工具都能接入基础系统 > **小提示:** OWL支持的工具包括谷歌搜索、视频处理、图像处理、音频处理、Playwright网页浏览、PDF解析、代码执行等。 ### OWL与Manus的技术差异 | 对比维度 | OWL | Manus | |---------|-----|-------| | 技术基础 | Optimized Workforce Learning | CodeAgent + Claude-3.5 | | 工具使用 | 用户可根据任务选择不同工具 | 只能使用固定工具 | | 开源情况 | 完全开源 | 商业闭源 | | 定制性 | 高度可定制 | 固定配置 | **OWL的优势:** 开源的优势在于可以定制自己的工具,在特定领域或应用场景中,将特有的工具加入进来,提高效率和稳定性。 ## 02 Manus的技术实现与市场表现 ### Manus的行业意义 Manus的出现被形容为 **“点燃了AI Agent这一波技术浪潮”**。具体来说,它的意义在于: 1. 让大众看到了AI技术的可能性 2. 展示了Agent的实际应用(如做研究、写代码、操控网页) 3. **首次以出色的产品形态(UI/UX)面向大众** 4. 让众多不了解该技术的人开始关注 > **小提示:** Manus的首席科学家在推特上坦诚分享了技术细节,他们自己也说没什么技术秘密,技术本身就是成熟技术的组合。 ### Manus的技术亮点 从工程角度分析,Manus有两个值得学习的技术亮点: **1. 利用Ubuntu文件系统做上下文持久化和管理** - 将存储文件置于用户文件夹,方便随时读取 - 相比传统数据库语义检索更灵活 **2. 把终端命令行运用到极致** - 命令行非常通用,功能强大 - AI Agent熟练运用命令行便具备超强通用能力 - **学会把命令行当作通用工具解决问题,远比构建工具高效** ### 市场表现与评价 在国外,Manus的评价同样两极分化: - **支持者认为:** 产品做得很棒,通用AI时代要来了 - **质疑者认为:** 这是谁都能做出来的简单“套壳”产品 ## 03 AI Agent的技术原理与商业落地现状 ### Agent之间的差距:模型是关键 **Q:OWL和CAMEL离大规模实际部署有多大距离?** **成本分析:** - 复杂任务(如证明费马大定理)可能消耗24万token,成本约$36 - 简单任务(打开网页查找信息、调研新闻)一般不超过$1 **成本降低方案:** 1. **模型层面:** 更高效完成任务,精准理解指令 2. **推理层面:** 做好量化、稀疏化、缓存等技术 3. **硬件层面:** 使用更便宜的专用推理芯片 > **常见问题:** 为什么Agent任务成本这么高? > **答案:** Agent在执行任务时可能反复调用、尝试,在无法完成任务的情况下导致大量token消耗。可以通过设置最大步数等限制来控制成本。 ### 与Manus的性能差距原因 在GAIA benchmark上对比发现: - Level-1性能:OWL与Manus差不多 - Level-2和Level-3性能:OWL比Manus差约20% **主要原因:** 1. **模型差距** - OWL用GPT-4o测试,Manus用Claude 3.5 - Claude 3.5具备Computer Use能力 - **换成支持Computer Use的模型,性能将大幅提升** 2. **工具差距** - 需要补齐工具层面的不足 - 双方各有对方没有的工具 3. **工程优化** - 需要更多调试和实验 ### MCP协议的价值 MCP(Model Context Protocol)是未来的重要技术: - 让所有框架接入相同工具 - Cursor和OWL项目都能使用符合MCP标准的工具 - 借助众多开源工具完善Agent 使用方式:利用 **“MCP Toolkit manager”**,把MCP服务器信息给到它,连接MCP就能与相应APP连通,agent随之可获取并使用所有MCP工具。 ### 为什么Manus现在才出现? Manus的出现并非突然,而是经历了一个**量变到质变**的过程: 1. **2023年3月:** 第一个multi-agent框架发布(用于写游戏、代码、股票交易软件) 2. **AutoGPT阶段:** 能做搜索、代码生成,但效果不好 3. **产品优化阶段:** kimi、豆包、Perplexity把搜索做得不错 4. **Deep Research阶段:** OpenAI的Operator能操控网页 5. **Manus阶段:** 在基础上经过优化后出现 > **小提示:** 从技术层面看,复现Manus的技术相对简单,更多在于产品交互和形态方面。Manus首发占优势,后续产品要复现它的成功会比较难。 ### CodeAct与MCP的差异 **Q:Manus采用CodeAct来调用工具,和MCP的差异是什么?** Manus是通过写代码调用的工具,这与使用MCP进行的所有调用**并不冲突**。MCP解决的是Agent与工具之间接口的统一问题,而且MCP也支持以代码形式执行调用。 ### MCP与multi-agent的关系 MCP的服务器可以是简单工具,也可以是Agent。如果服务器和客户端均为Agent,就能实现两个Agent间的通讯。服务器和客户端本身也可以是multi-agent系统,如此便可实现multi-agent之间的通讯。 ## 04 垂直领域Agent的深入思考 ### Agentic AI的实现路径 当前有两条看似相反的实现路径: | 路径 | 特点 | 长期性 | |------|------|--------| | 端到端学习 | 模型学习tool learning能力 | 长期趋势 | | 基模+外部工程框架 | 通过工程手段实现 | 过渡阶段 | **李国豪的观点:** 两条路线其实是**互补的**。模型使用工具的能力本质上是概率模型,无法永远保证调用工具完全准确。通过约束采样等方式实现工具调用是很好的方式。 ### 垂直领域Agent的价值 **Q:通用Agent框架已初步成型,垂类Agent框架是否更值得发力?** **核心观点:垂类领域更值得发力** 不同领域的信息处理逻辑、所需工具、数据源、API都不同,导致通用Agent框架难以很好地适配垂类场景。 **实现难度在哪些环节?** 1. **找准问题所在**(最难) 2. **工具欠缺**:补充工具即可 3. **推理能力不足**:采集数据优化模型 4. **缺乏有效监督信号**:通过偏好学习等方式解决 ### 通用Agent与垂类Agent的关系 **Q:通用Agent能力提升是否会挤压垂类Agent市场空间?** **核心观点:如果垂直领域的工作能被通用Agent轻易取代,那就说明该垂直领域的工作还不够“垂直”** Agent和模型有很大区别: - Agent更需要优质的交互界面和良好的UI/UX - 模型的输出通常是文本 - Agent的输出形式多样(操控浏览器、操控机械等) - 不同专业领域的UI/UX设计差异很大 ## 05 Agent带来的人机交互变革 ### 内容输出个性化问题 **Q:通用Agent怎么解决内容输出个性化的问题?** 目前线上的解决方案主要通过**记忆模块**来实现: - 模块能跨不同任务生成不同知识 - 执行任务前会检索知识,回忆其中的内容 - 从记忆层面解决用户偏好问题 - 需要与Agent不断交互以产生个性化 ### 幻觉问题的优化方案 **Q:多个模型嵌套导致幻觉难以商用,如何优化?** **核心观点:取决于构造的系统是收敛系统还是发散系统** - 如果多个Agent每一步都更趋向收敛,产生的幻觉会更少 - 需要分析每一步产生幻觉的具体原因 ### 端到端模型与“套壳”产品的竞争 **Q:Deep Research这类端到端模型产品未来有没有可能吃掉Manus这类产品?** **核心观点:** 如果Manus能把“壳”套好,自身架构做得更完善,不一定会被淘汰。 Manus已经有大量用户数据,也有能力做端到端训练,同时开源模型越来越强,闭源模型也开放了微调接口,大家都有机会。 ### Agent产品的人机交互特点 **Q:Agent产品与普通AI工具在人机交互方式上的区别?** **关键差异:** - 传统AI工具:需人主动提问、下达任务,**人主导** - Agent产品:减少人的参与,**更自主**地完成任务 - 仅在特殊情况下需要人确认 **未来方向:** 1. **人、机器和Agent三者的交互关系** 2. **生成式UI**:UI不一定是固定的 3. **动态生成Agent**:一个发展方向 ### Agent系统与具身机器人的结合 **Q:Agent系统能否成为具身机器人的任务管理技术底座?** **核心观点:** Agent系统在未来大有可为,这个趋势已在发生。 通过Agent系统调用原子技能,实现AI Agent与具身场景的融合,这肯定是未来方向。让Agent进行多次推理是可行的,例如借鉴MapReduce的方式,分配多个任务,再整合它们的记忆。 ## 06 AI for Science与Agent的融合 ### 判断Agent系统好坏的标准 **评判维度:** 1. **性能方面** - GAIA benchmark - OSWorld Benchmark - Crab Benchmark 2. **效率方面** - 系统运行速度 - 资源消耗情况 ### 构建专属Benchmark的方法 **Q:如何构建专属Benchmark?** 1. **保证数据多样性与足够数据量** - 传统方式:人工采集 - 注意避免数据偏差 2. **数据合成** - 基于已有数据合成更多数据 - 再进行标注与过滤 3. **设计合理评判指标** - 除最终是否完成任务外 - 需考量任务完成进度 ### AI for Science的产品形态 **Q:AI for Science领域的Agent与通用Agent产品形态差异?** **核心观点:非常看好Agent用来做AI for Science** AI for Science的特点: 1. 任务存在重复性 2. 涉及工具调用 3. 速度较慢 4. 经常需要与物理世界交互 5. 反馈周期长(可能好几天甚至一年) **实际案例:** 自动化实验室项目,例如自动寻找新化合物,需要Agent操控机械臂完成药品选择、分发,同时对实验进行观测、分析。 ### 资源有限团队的研究方向建议 **Q:对于资源极其有限的学术研究项目,应该聚焦哪些方向?** **核心建议:选择大厂或大型创业公司不太在意或尚未关注到的领域** **具体策略:** 1. 避开OpenAI和DeepMind等公司正在做的事情 2. 专注于他们暂时不会去做的领域 3. 关注大公司优先级不高但重要的方向 **成功案例:** 社区专注于multi-agent,构建更大规模的系统,因为短期内大公司不会涉足这个领域,但这又是一个非常重要的研究方向。 > **小提示:** AI有五个不同级别的智能定义,第五级是组织层面能够完成的事情。只有multi-agent系统才能实现组织层面的任务,这无疑是未来的重要发展方向。 --- ## 常见问题汇总 ### Q1:Agent任务的成本如何控制? **答案:** 通过设置最大步数、选择成本较低的模型(如GPT系列而非Claude 3.7)、优化模型能力使Agent更高效完成任务等方法来控制成本。 ### Q2:如何缩小与Manus的性能差距? **答案:** 主要从三个方面入手:使用支持Computer Use的更强模型、补齐工具层面的不足、进行更多工程优化。 ### Q3:垂直领域Agent是否值得投入? **答案:** 非常值得。通用Agent在解决垂直领域问题时总会有效率不足的情况。如果垂直领域的工作能被通用Agent轻易取代,说明该领域的工作还不够“垂直”。 ### Q4:Agent产品的核心竞争力是什么? **答案:** Agent产品的核心竞争力在于优质的交互界面、良好的UI/UX设计,以及能够更自主地完成任务,减少人的参与。
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:OWL团队万字分享:复现Manus最佳团队如何看待Agentic AI落地现状要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/OpenSourceLLM/2025033110495.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 19:47
OmniParser基于AI的解析工具

OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。

AI热点2026-07-05 19:47
通义灵码智能编码助手助你高效编程

通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。

AI热点2026-07-05 19:47
基于AI的自动化道路巡逻与资产数据收集方案

基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。

AI热点2026-07-05 19:47
通义智文AI助你高效阅读全网文章

阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。

延伸阅读