当前位置: 首页
业界动态
OpenAI前CTO创业首推交互式大模型 原生实时人机协作

OpenAI前CTO创业首推交互式大模型 原生实时人机协作

热心网友 时间:2026-05-13
转载

从Siri到ChatGPT,我们与机器的对话似乎总隔着一层无形的屏障——一问一答,规规矩矩,却少了人与人之间那种流畅自然的互动感。问题出在哪?关键在于,目前绝大多数大模型仍固守于“轮次式交互”的框架。用户说完,模型再答;模型生成时,无法同步接收新的信息。所谓的“实时对话”,本质上还是靠外部工程框架,将语音识别、大模型、语音合成这几个模块拼接起来实现的同步假象。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

不过,这个局面或许即将被打破。近日,由前OpenAI CTO Mira Murati创立的Thinking Machines Lab,发布了其首款交互模型(Interaction Models)的研究预览。这项研究旨在重新定义人机对话,其展示的全新交互能力,在智能性与响应速度上,据称已达到了当前最先进的水准。

研究团队的核心突破在于,让模型能够持续接收音频、视频和文本流,并同步进行回应、工具调用和后台推理。这听起来简单,实现起来却需要一套全新的系统架构。

面向实时协作的双模型系统

为了实现真正的实时交互,Interaction Models采用了一套精巧的双模型设计:一个具备时间感知的“交互模型”负责前台实时互动,另一个“异步后台模型”则处理需要长时间推理或工具调用的任务。多模态架构与流式推理服务为这套系统提供了低延迟的保障。

图|用户持续与交互模型互动,同时后台模型执行异步任务。两个系统共享上下文。

交互模型:200毫秒级实时对话管理

这套系统的灵魂在于引入了“时间对齐微轮次”的概念。它将连续的输入和输出切割成200毫秒的片段,让模型能够像人类一样,持续“听”和“看”,并同步“思考”与“回应”。

图|轮次式模型看到的是一条交替的token序列。具备时间感知能力的交互模型看到的是连续的微轮次流,因此沉默、重叠发言和打断仍会保留在模型上下文中。

这意味着,用户的每一次停顿、犹豫、自我修正,甚至视觉上的动作变化,都成为了模型判断下一步行动的宝贵线索。模型不再需要等待一个完整的指令句,就能判断此刻是该接话、等待还是提问。在官方演示中,当研究员Lilian Weng在讲故事时,模型能独立判断她是在思考还是在期待回应,无需任何额外的对话管理模块介入。

后台模型:把异步任务接入实时对话

当对话涉及需要查资料、复杂计算或长时间规划的任务时,交互模型便会将完整的上下文“移交”给后台模型。这个后台模型异步运行,生成结果后以流式方式返回,再由交互模型无缝融入对话。用户完全不必等待,可以继续说话,感觉就像在与一个“一心多用”的超级助手交谈。

底层服务:用早期融合与流式会话压低延迟

为了支撑200毫秒级的实时交互,研究团队在底层做了大量优化。他们采用了早期融合路线:音频以dMel频谱图形式输入,图像被切分成40×40的块进行编码,音频输出则通过专门的流式解码器生成。

图|单个200毫秒微轮次中的交互模型架构示意图。模型可以接收文本、音频或视频中的任意一种或多种输入,并预测文本和音频输出。

在推理侧,团队运用了“流式会话”技术,将连续片段追加到GPU内存的持久序列中,大幅减少了内存重新分配和元数据计算的开销。这些优化能力已被整合进SGLang上游,并通过内核优化等手段,共同支撑起低延迟的双向服务。

更低延迟,更强实时交互

光有架构创新还不够,性能究竟如何?研究团队使用现有的交互基准、音频智能基准,并结合自建的实时交互任务,对TML-Interaction-Small模型(一个276B参数的MoE模型)进行了全面评估。

在常规交互基准FD-bench V1上,该模型的优势主要体现在响应速度。其简单话轮延迟仅为0.40秒,显著低于GPT-realtime-2.0 minimal的1.18秒等竞品。在更复杂的FD-bench V1.5(测试打断、附和等场景)中,其交互质量平均得分达到77.8,也高于几个实时模型对照。

图|该模型在交互质量方面表现较高,同时在非thinking模型中具备较高智能水平。最佳响应速度以用户与模型交互之间的延迟衡量。

当然,对于实时模型,低延迟必须与高智能、强安全并行才有效。因此,团队还测试了其在工具调用、视频问答、安全拒答等多方面的能力。结果显示,其文本指令遵循准确率与顶级模型接近,同时在安全边界上也有可靠表现。

图|对于需要推理或工具调用的基准,结果为启用后台Agent后的表现。

更值得关注的是团队设计的几组内部实时任务测试。例如,TimeSpeak测试模型能否在用户指定的精确时间点做出回应;CueSpeak则测试模型能否识别用户语音中的微妙线索并适时接话。在这两项评估时间感知和语义触发能力的任务上,TML-Interaction-Small得分(64.7和81.7)远远将GPT-realtime-2.0 minimal(4.3和2.9)甩在身后。

在视觉主动响应方面,模型同样表现出色。在需要根据视频内容主动计数或回答问题的任务上,该模型得分显著高于基线和不回答的对照组,展现了其多模态实时理解与响应的潜力。

图|ProactiveVideoQA上的不回答基线为25.0。

不足与未来方向

尽管前景令人兴奋,但必须清醒认识到,Interaction Models目前仍处于研究预览阶段,要成为一个稳定可用的实时协作系统,还有几座大山需要翻越。

首先是长上下文管理的挑战。连续的音视频流会快速消耗上下文窗口。当前的流式会话能支撑短时交互,但真实的工作场景往往长达数小时,涉及多个任务切换,这对上下文管理机制提出了更精细的要求。

其次是现实部署的约束。低延迟极度依赖稳定的网络连接,任何波动都会直接影响体验。未来的系统需要更高的鲁棒性,模型本身也需要被训练得能够适应网络延迟带来的输入帧问题。

第三是模型规模的限制。当前的TML-Interaction-Small已是276B参数的“大模型”,但交互能力很可能随规模增长而提升。然而,更大的预训练模型目前的速度还无法满足实时性要求。研究团队已计划在今年发布参数规模更大的版本。

第四是安全与信任的难题。长时间、多模态的实时交互,让安全校准变得异常复杂。模型用语音拒答时,如何既自然又明确?模型主动插话的时机如何把握?这些细微之处,直接关系到用户对系统的控制感和信任度。

最后,后台智能体的协作机制仍处早期。实时交互只是拼图的一部分,智能体的自主性(Agentic Intelligence)同样关键。后台模型与交互模型如何高效协作,如何将工具调用、网页浏览、长期规划等能力有机整合进同一套实时反馈系统,仍有大量的探索空间。

总而言之,Thinking Machines Lab的这项工作,为人机交互推开了一扇新的大门。它不再满足于模拟对话,而是开始构建一种能够感知时间、理解语境、并同步思考与行动的“数字协作者”。虽然前路漫漫,但方向已然清晰。

来源:https://36kr.com/p/3806030780145414

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
OpenClaw新版发布 龙虾机器人实现仿生肢体升级

OpenClaw新版发布 龙虾机器人实现仿生肢体升级

虽然OpenClaw的更新动态已非唯一焦点,但其生态内一款关键工具的进化,正将智能体的能力边界实质性地向前推进。这次突破的核心在于,著名的“龙虾”智能体如今真正具备了操控现实世界的“手脚”。 这一变革源于其创造者Peter带来的全新Computer Use工具——Peekaboo v3。该版本精准解

时间:2026-05-13 18:19
AI人才争夺战升温 月之暗面与DeepSeek如何走反大厂化之路

AI人才争夺战升温 月之暗面与DeepSeek如何走反大厂化之路

5月12日,北京大学光华管理学院内的一场高端人才招募活动,揭示了当前AI人才争夺战的最新策略。月之暗面副总裁张予彤与光华管理学院院长田轩展开深度对谈,现场更设置了直接面签环节,吸引了大量顶尖学子的关注。这一系列举措清晰地表明,在争夺顶尖AI人才与人工智能专家的竞争中,头部科技公司已不再局限于传统招聘

时间:2026-05-13 18:19
2026年除甲醛空气净化器选购指南 长效分解技术是关键

2026年除甲醛空气净化器选购指南 长效分解技术是关键

2026年家用空气净化器选购需注重长效分解甲醛技术,避免二次污染。新房急住推荐强效分解产品;母婴家庭需兼顾除菌;大空间应关注快速换气效率。选购时重点考察核心分解技术,确保甲醛彻底转化为无害物质。

时间:2026-05-13 18:18
李彦宏谈AI时代新标准:智能体日活数成关键指标

李彦宏谈AI时代新标准:智能体日活数成关键指标

李彦宏在百度AI开发者大会上提出,衡量AI生态繁荣度的关键指标应从“日活用户数”转向“日活智能体数”。他认为,Token消耗仅反映成本,而智能体持续工作并交付成果更能体现真实价值。同时,开发者角色正融合为建造者、创业者与创造者的三位一体。

时间:2026-05-13 18:18
乒乓球机器人首次击败高水平人类选手

乒乓球机器人首次击败高水平人类选手

想象这样一个场景:一张标准乒乓球台,一边是挥洒自如的人类高手,另一边则是一台机械臂。球如闪电般掠过球网,肉眼几乎只能捕捉到一道残影。就在这电光石火之间——0 3秒,机械臂动了,精准地将球回击过去。几个回合的快速对拉后,球落地了。得分的是机械臂。 这个看起来有些“朴素”却速度惊人的家伙,名叫Ace,来

时间:2026-05-13 18:18
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程