当前位置: 首页
AI
周伯文谈大模型操作系统工具与语言融合的重要性

周伯文谈大模型操作系统工具与语言融合的重要性

热心网友 时间:2026-05-16
转载

2023年8月,在新加坡举行的第七届GAIR全球人工智能与机器人大会上,清华大学讲席教授、衔远科技创始人周伯文博士,围绕“复杂场景下的生成式AI”分享了他的前沿思考。他指出,当前AI在掌握人类语言方面已展现出惊人能力,而下一步复现人类智能的关键,在于让AI学会在复杂场景中系统性地使用工具。

这引出了一个根本性的问题:究竟是“工具为AI服务”,还是“AI为工具服务”?前者意味着以AI为核心,工具的存在是为了增强AI的能力;后者则意味着以工具为核心,AI的作用是让人更便捷地使用工具。这个看似哲学层面的选择,实则决定了未来人机协作中谁占据主导,其答案将深刻影响技术发展的路径。

从“吟诗作画”到“苦活累活”:AI的下一站

网上有个流传甚广的段子:大模型在吟诗作画,人却在苦哈哈干活。这虽是个笑话,却尖锐地指出了一个现实:我们需要将AI引入更真实、更复杂的任务场景中,让它去承担那些更“苦”的工作。

从智力演进的角度看,人类区别于其他物种的一个重要标志,正是创造并使用工具来完成复杂任务。AI本身也是人类创造的工具,那么下一个重大问题便是:AI能否像人类一样,真正“用好”工具?过去几十年,我们成功地将语言理解能力赋予了AI,催生了ChatGPT等大模型。接下来的挑战,就是如何将语言能力与工具使用能力结合起来,教给AI。

人类正是凭借语言与工具的结合走到了今天。AI能否复现这种智能?答案是肯定的。基于基础模型已展现出的语言与推理能力,我们已经看到了AI融合语言与工具智能的曙光。当然,这其中充满挑战,也需要对问题本身进行更系统、更严谨的学术定义。

工具的定义:万物皆可“Token化”

首先,我们需要明确什么是“工具”。工具形态多样,可以从不同维度分类:

按功能性质,可分为确定性工具(如计算器、时钟)、基于API的功能工具、具备专项能力的神经网络或其他基础模型,以及与物理世界交互的工具(如机器人、传感器)。

按互动方式,则可分为与物理世界互动的工具、将世界抽象为图形界面(GUI)的工具,以及将世界抽象为API的工具——正所谓“软件正在吞噬世界”。

无论如何分类,在大模型时代,所有这些工具及其组合,本质上都可以被视作“Token序列”。这并非新概念。在ChatGPT之前,OpenAI推出的WebGPT工作就已预示了这一点。WebGPT不仅能生成答案,还能提供答案的出处,有效缓解了“幻觉”问题。其秘诀在于,它通过模仿人类在浏览器中的搜索、点击、浏览等行为序列进行训练,让模型学会了“行动”。

这项研究带来了一个有趣的发现:仅用6000个标注示例,就能训练出性能良好的WebGPT。这种让大模型学会使用工具的训练范式,恰恰能解决当前大语言模型的诸多短板,例如信息时效性不足、复杂计算容易出错等。关键在于,让模型学会在合适的时间,调用合适的工具组合,并懂得如何整合结果。这正是AI迈向系统性工具使用的核心。

集成工具的新一代AI框架

AI如何与工具融合?目前缺乏一个完整的框架。从学术角度看,一个完备的框架应由四部分组成:控制器、工具集、环境和感知器。

控制器负责理解人类指令,并规划出可执行的行动方案,决定在何时调用何种工具。工具集是各类异构工具的集合,从简单API到复杂模型,再到机器人硬件。环境是工具执行操作的对象或场景。感知器则负责观察工具作用于环境后产生的变化,接收外部信号(包括人类反馈),并将结果反馈给控制器,以调整后续行动。

用数学语言描述,这可以建模为一个马尔可夫决策过程,目标是求解最优行动序列。其核心是,在给定历史信息、人类指令和反馈的条件下,决定当前时刻的最佳行动。这里的“行动”包含两个信息:调用什么工具,以及返回什么信息。最终目标是选择一系列行动,以最大化任务完成的整体概率。与ChatGPT输出文字序列不同,这个框架输出的是“行为序列”。

该框架要解决三大核心问题:意图理解(理解用户想要什么)、工具理解(理解工具能做什么以及如何调用)、以及规划与推理(如何一步步规划并执行复杂任务)。

三大研究方向

方向一:意图理解

大语言模型在自然语言理解、推理等方面已表现卓越,通过指令微调也能快速适应新任务。因此,只要模型足够强大且有高质量指令集,意图理解在很大程度上已被解决。但挑战依然存在,例如如何准确理解用户的模糊或个性化表述,以及如何处理理论上无限的指令空间。这些问题仍有研究空间,但已非主要障碍。

方向二:工具理解

这是更复杂的任务。例如,面对一个天气查询API,模型需要将“上海明天天气如何”这样的自然语言指令,准确转化为对API的调用(城市=上海,日期=明天)。当任务需要组合多个工具(如API、模型、传感器)时,复杂性将指数级增加。目前,像ChatGPT插件那样手动勾选工具的方式只是一种启发式方案。如何让模型自动、精准地选择并组合工具,是一个亟待突破的关键问题。

方向三:规划与推理

这是三者中最难的部分。大模型虽具备“涌现能力”,能在未经专门训练的情况下完成某些任务,但在需要多步、复杂逻辑推理的场景中,仅靠涌现能力远远不够。

例如,让模型回答“Elon Musk名字中最后两个字母拼起来是什么”这类需要简单拆解的问题,它都可能出错。提升规划推理能力的一个有效方法是“思维链”,即将复杂问题分解为一系列中间步骤。将思维链与多模态知识结合,便能处理更复杂的场景,比如在多元素的图片中逐步推理识别出特定物体。

在我们提出的框架中,规划推理可分为两类:静态规划动态推理

静态规划指一旦制定计划便按部就班执行,无需与环境频繁交互,例如“打开电视-关闭烤箱”这样的顺序任务。难点在于如何让大模型生成可靠的静态计划。更先进的思路如“ReAct”,让模型在“思考”与“行动”之间交错进行,每步行动后都反思结果,从而动态调整后续步骤,显著提高了行动准确性。

动态推理则涉及与环境的实时交互,是“具身智能”的重要基础。例如,一个机器人接到“从桌上拿瓶喝的”指令后,它需要规划走到桌旁、通过摄像头识别物体(可乐、水)、通过询问确认用户选择(可乐)、再控制机械臂执行抓取动作。若抓取失败,还需根据反馈尝试再次抓取。这一系列行动构成了一个动态的、与环境持续互动的决策循环。

然而,上述例子仍相对简单。真正的复杂场景任务可能涉及成百上千个子步骤,调用大量异构工具,且工具间可能并行运作或相互协作。这对大模型理解工具间相互作用、处理并行任务以及协调多智能体协作提出了巨大挑战。

未来:以语言为界面的工具学习平台

许多人将大语言模型视为未来的“操作系统”。但从严格意义上讲,仅具备语言处理与生成能力的LLM,并不足以承担操作系统的重任。

未来的操作系统,应该是一个融合了语言能力的“工具学习平台”。在传统操作系统中,各种APP和功能在设备上运行;而在LLM的视角里,无论是APP、功能还是设备本身,都是可调用的“工具”。其核心逻辑是:理解任务 -> 决策调用何种工具 -> 根据工具返回结果 -> 规划下一步行动。

因此,下一代操作系统的本质,就是一个配备自然语言交互界面的工具学习平台,仅此而已。这也正是语言与工具结合的研究如此令人着迷的原因所在。

来源:https://www.leiphone.com/category/ai/nU6EKf8Kz01kMKT9.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI行业动态:百图生科智子引擎获投Anthropic发布Claude3.5

AI行业动态:百图生科智子引擎获投Anthropic发布Claude3.5

过去一周,AI领域资本与创新活跃。百图生科获战略投资,智子引擎等初创公司获融资。国内方面,B站开源Index-1 9B模型,月之暗面优化长文本处理,蔚来整合团队探索智能驾驶。国际层面,Anthropic发布Claude3 5Sonnet并免费开放,MIT与哈佛推出病理诊断AI,斯坦福发布开源人形机器人。同时,OpenAI前科学家Ilya创立专注AI安全的公司

时间:2026-05-16 07:32
智源研究院1500天坚持原始创新与大模型深度对话

智源研究院1500天坚持原始创新与大模型深度对话

面对AI技术差距,智源研究院坚持原始创新,战略转向覆盖多领域的“大模型全家桶”。在主流赛道推出低碳万亿模型Tele-FLM-1T,并研发原生多模态Emu3;在具身智能等前沿“无人区”达到世界水平,同时以FlagOS开源体系支撑生态发展,致力于攻克关键痛点。

时间:2026-05-16 07:32
魔形智能创始人徐凌杰获国际GPU高管加盟

魔形智能创始人徐凌杰获国际GPU高管加盟

前壁仞科技总裁徐凌杰于2024年6月创立上海魔形智能,专注大模型基础设施领域。公司定位为提供软硬件一体优化平台,旨在降低大模型使用成本,注册资本达1000万美元。徐凌杰拥有深厚的技术与商业背景,曾任职于阿里云及多家国际芯片企业。此外,一位国际头部GPU厂商的中国区高管也已加盟。

时间:2026-05-16 07:32
五大AI语言学习工具推荐:高效掌握外语的未来趋势

五大AI语言学习工具推荐:高效掌握外语的未来趋势

人工智能正深度变革语言学习,提供个性化高效工具。Trancy通过双语字幕和沉浸翻译将视频网页转为学习材料;多邻国以游戏化课程让学习趣味化;Langua凭借高级对话练习和实时反馈提升口语听力;Memrise利用间隔重复法巩固词汇记忆;Busuu则连接全球社区满足定制化需求。这些工具共同助力用户跨越语言障。

时间:2026-05-16 07:32
五款实用AI知识搜索引擎推荐智能搜索新体验

五款实用AI知识搜索引擎推荐智能搜索新体验

AI知识搜索引擎借助前沿技术,提升查询准确性与用户体验,能深入理解意图并提供精准答案。文中介绍了五款领先产品:PerplexityAI以对话式答案见长;DevvAI专注开发者需求;秘塔科技推出大众搜索与法律专用工具;ThinkAny利用RAG技术生成专业回答;KomoAI强调交互探索。它们通过智能模型与友好界面,让信息获取更直接高效。

时间:2026-05-16 07:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程