数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

火山引擎发布豆包大模型1.8：多模态Agent能力跻身全球第一梯队

AI热点日报时间：2025-12-18

热点解读

智东西作者 ZeR0编辑漠影智东西12月18日报道，今日，火山引擎在FORCE原动力大会上正式发布豆包大模型1 8及音视频创作模型Seedance 1 5 pro。评测数据显示，豆包大模型在多模态

智东西
作者 ZeR0
编辑漠影

智东西12月18日报道，今日，火山引擎在FORCE原动力大会上正式发布豆包大模型1.8及音视频创作模型Seedance 1.5 pro。评测数据显示，豆包大模型在多模态理解、生成能力及Agent能力上，已跻身全球第一梯队。

火山引擎总裁谭待称，截至今年12月，豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍。

目前其已有超过100家企业客户累计token使用量超过1万亿。

Seedance 1.5 pro音视频创作模型则实现了毫秒级的音画同步输出，支持多人多语言对话，口型对齐精准，而且生成的视频可展现出影视级叙事张力。

会后，谭待在接受媒体采访时进一步分享了Seedance 1.5 pro的优势，音画同步要不仅是声音和画面同步，还要做到与语义的同步，这需要很好的视频模型、大语言模型、语义模型作为基础，而豆包在这些领域均表现领先。

他透露，Seedance系列很快将上线“Draft样片”功能，通让预览视频更快，成本也更低。

一、豆包大模型1.8：更强Agent能力、升级多模态理解、更灵活上下文管理

作为豆包家族的最新旗舰模型，豆包大模型1.8（Doubao-Seed-1.8）面向多模态Agent场景进行了定向优化。

其工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强，提升了模型在处理复杂任务时的规划与执行水平。

在视觉理解方面，豆包1.8的单次视频理解帧数从640帧倍增至1280帧。模型支持以低帧率理解超长视频，并能调用工具对关键片段进行高帧率理解。该能力可广泛用于在线教育、产品质检等场景中。

豆包1.8支持256K上下文，拥有更灵活的上下文管理，擅长复杂多步任务。

二、多模态理解、GUI Agent、数学与推理评测分数领先

在多项公开评测中，豆包1.8展现出具有竞争力的全面表现：在视觉推理、通用视觉问答、空间理解及视频理解等任务中，均获得最佳或接近最佳成绩；在通用智能体测评集BrowserComp上表现全球领先；在数学与推理等基础能力维度上，整体水平已接近全球顶尖的通用模型。

具体来看，在数学、推理和知识理解等核心基础能力维度上，豆包1.8的整体水平接近业界顶级通用模型。

该模型在多项复杂指令基准中保持了与业界领先模型接近的表现。

它还将能力验证扩展至由真实专家定义、具有明确经济价值的应用场景，包括教育辅导、客服问答、信息处理、意图识别、信息抽取以及多步骤复杂工作流等任务类型，验证了模型在真实使用环境中的适用性。

评测结果显示，豆包1.8具备业界领先的GUI Agent能力，在电脑、网页、移动端三类环境中，均展现出在不同系统和界面中执行多步任务的可靠性。

其搜索任务中表现同样突出，在多组公开Agent搜索评测基准中保持业界第一梯队水平，比如在BrowseComp-en基准测试中得分高达67.6，超过Gemini-3-Pro等其他顶级模型。

在Agentic Coding相关基准测试中，豆包1.8展现出了面向真实软件工程场景的稳定能力，表明其具备在真实开发环境中持续推进任务的Agent编程能力。

FinSearchComp和XpertBench的测评显示，该模型在处理金融商业相关任务时相对稳定和高效。该模型在WorldTravel多模态应用任务中得分达47.2，表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。

此外，豆包1.8在多模态推理任务中超越了前代模型Seed1.5-VL，在大部分任务中接近目前最先进的Gemini-3-Pro。

在被认为难度极高的视觉推理测试ZeroBench中，豆包1.8获得11.0的最高得分。

在通用视觉问答任务中，该模型在VLMsAreBiased基准测试中取得了62.0的分数，大幅领先其他模型。

豆包1.8在2D及3D空间理解的多个基准测试中表现优秀，在处理3D空间理解和复杂任务时，特别是在动态和复杂数据集上，表现出较好的适应性和推理能力。

在视频理解领域，该模型表现出色，尤其在视频推理、运动与感知、长视频理解等任务中展现出较强的适应性。它在动态场景和实时感知任务中也分数领先，展现了模型在复杂感知任务中的能力，尤其是在处理实时信息时的高效性。

豆包1.8在长视频理解任务中同样表现突出。

在视频处理中，它还实现了Token Efficiency的显著提升，既带来了更强的理解能力，又将提供更低延迟的实时视频处理体验。

豆包1.8通过引入多种Thinking Modes，嵌入了动态调节思考深度的能力。用户可根据任务的不同需求，灵活调整模型的推理深度和计算负载。

项目主页：https://seed.bytedance.com/seed1_8

部分为该模型研发构建的评测数据集已开源，或将在未来开源。

三、Seedance 1.5 pro：音画高精同步，支持多人多语言对话

针对日益增长的视频创作需求，火山引擎推出了Seedance 1.5 pro音视频创作模型。该模型不仅具备影视级的叙事张力，能够精准捕捉运动细节并细腻呈现人物情绪，更是展现出在音画高精同步方面的技术实力。

Seedance 1.5 pro采用创新的原生音视频联合生成架构，支持环境音、背景音乐、人声等多种元素，实现了毫秒级的音画同步输出。

在对白处理上，模型支持多人多语言对话，口型对齐精准，覆盖中文方言、英文及小语种，提升了视频内容的真实感与全球化创作潜力。

该模型可生成具有影视级叙事张力的视频效果。

为进一步降低创作门槛与成本，Seedance系列即将上线“Draft样片”功能。创作者可先生成低分辨率样片进行预览，其关键要素与最终成片高度一致，真正做到“预览即所得”。

数据显示，该功能可帮助创作者提升65%的整体效率，并减少60%的无效创作成本。

目前，个人用户已可在豆包、即梦AI等平台体验该模型。企业用户则可从12月23日起，通过火山引擎API接入Seedance 1.5 pro模型服务。

四、升级AI云原生架构，构建Agent规模化落地基座

谭待认为，传统的IT架构已无法满足Agent时代的需求，以模型为中心的AI云原生架构正在形成，并围绕Agent的开发与运营进行重构。

在Agent开发层面，火山引擎全面升级了企业级AI Agent平台——AgentKit。该平台覆盖了Agent从开发、部署到管控的全生命周期，旨在解决企业在Agent落地中面临的身份权限管理、模型确定性及系统集成等核心挑战。

在Agent运营层面，火山引擎推出了HiAgent智能体工作站。该工作站通过构建统一的企业AI任务调度中心、提供一系列开箱即用的通用智能体，以及支持个性化定制智能体应用，帮助企业实现Agent的规模化管理与应用。

此外，为降低企业使用门槛，火山引擎推出了业内首个“AI节省计划”。该计划覆盖所有按量后付费的大模型产品，通过阶梯式折扣，帮助企业最高节省47%的成本。

结语：从模型到基础设施升级，推动AI应用向复杂Agent生态演进

面向AI，火山引擎的AI云原生基础设施持续进化。

谭待谈道，通过从模型能力到基础设施的全面革新，火山引擎正在推动AI应用从单一的模型调用向复杂的Agent智能体生态演进，加速AI能力在各行各业的深度落地。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：火山引擎发布豆包大模型1.8：多模态Agent能力跻身全球第一梯队要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KH2RBVDD051180F7.html

张力豆包模态大模型智能体火山引擎 agent

上一篇：火山引擎谭待：大模型市场非零和博弈，明年或再涨十倍

下一篇：解析南方航空接入千问，打造“天盾”大模型技术架构

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。