AI MediaKit CLI+Skill发布 Agent化身音视频工作台
火山引擎正式发布AIMediaKitCLI与Skill,为Agent提供音视频工作台。该工具包含100+原子能力,全面覆盖剪辑、画质增强、字幕处理等环节,便捷支持端云协同与长任务回收机制,使Agent能够灵活调用、编排并高效交付可上线的视频成片。
在刚刚落幕的2026 Force源动力大会上,火山引擎智能视频云正式推出了AI MediaKit CLI与Skill。火山引擎AI Media Platform产品负责人杭梦钰指出了当前AI视频生产的关键趋势:下一阶段的目标不再是简单生成一段画面,而是要交付一条真正能够上线、可实际使用的成品视频。
大模型确实让内容生成变得触手可及——一句话、一张图、一段参考视频,都能快速转化为视觉画面。然而真实的生产流程远没有那么简单。从“生成内容”到“可以发布”,中间需要大量音视频处理工作:理解素材、裁剪片段、拼接成片、添加字幕、擦除原字幕、增强画质、调整帧率与分辨率、适配不同平台规格……整个过程覆盖理解、处理、交付三大核心环节。
过去,这些操作分散在剪辑软件、后期系统和云端API中。进入Agent时代,我们希望这些能力也能被Agent直接理解、调用和编排。这正是AI MediaKit CLI + Skill发布的真正背景——让Agent不仅会写prompt、调模型,还能拥有一座可调用、可编排、可交付的音视频工作台。

Agent 需要的不只是模型,还有工作台
对大多数文本任务而言,Agent的工作方式已经非常自然:读取文档、编写代码、调用接口、查看日志。输入输出都是文本,Agent能直接判断结果是否正确。
但音视频任务完全不同。
视频是连续画面,音频是声波信号。成片是否美观、字幕是否准确、节奏是否顺畅、画质是否提升——这些都无法仅通过纯文本判断。Agent生活在符号世界,而音视频属于感官世界。因此,仅仅把一个API封装成命令,对Agent来说远远不够可靠。Agent需要知道:有哪些音视频能力可供调用;每个能力需要什么输入;长耗时任务是否提交成功;任务执行到了哪一步;最终产物的存放位置;结果能否继续传递给下一步处理。
这正是“音视频工作台”的核心价值。它是一组面向Agent的能力层,将理解、处理、交付等音视频流程,封装成Agent可调用、可编排的工具。
AI MediaKit:面向 Agent 的音视频能力底座
AI MediaKit是火山引擎针对Agent时代推出的音视频开发套件,沉淀了超过100项音视频原子能力,覆盖视频理解、剪辑、字幕处理、画质增强、字幕擦除、转码、音频处理、图像处理等生产环节。这些能力过去分散在不同软件、不同API、不同后期系统中,而AI MediaKit的目标是将它们重新整合为一套面向Agent和开发者的能力底座。
此次发布的CLI + Skill,就是Agent进入这座工作台的第一层入口。它让开发者能够通过命令行调用音视频能力,也让Claude Code、Trae、Cursor、Codex、OpenClaw等Agent runtime可以通过自然语言触发对应工具。换言之,AI MediaKit提供了100+音视频能力池;CLI + Skill则是这些能力面向Agent生态的标准化入口,并且会随着底层能力的开放持续跟进。
AI MediaKit CLI + Skill 发布了什么
AI MediaKit CLI + Skill主要由三部分组成。
第一部分是AI MediaKit CLI。它是面向Agent的原生命令行工具。开发者和Agent都可以直接使用命令完成视频裁剪、拼接、添加字幕、画质增强、字幕擦除等任务,也能将其接入自动化处理流程。
第二部分是AI MediaKit Skills。Skill面向Agent runtime。安装后,用户可以在Agent对话窗口中直接描述需求,由Agent理解意图、编排能力、拼接命令、提交任务并交付结果。当前Skill按四大能力域拆分,并会随着AI MediaKit底层能力的开放持续更新:
- byted-mediakit-editing:剪辑类能力,包括裁剪、拼接、变速、加字幕、加水印、音视频合成等;
- byted-mediakit-video:视频处理类能力,包括画质增强、字幕擦除、视频处理等高阶视频AI能力;
- byted-mediakit-image:图像处理类能力,包括图像增强、智能抠图、擦除修复、OCR、智能裁剪等;
- byted-mediakit-audio:音频处理类能力,包括人声背景音分离、音频处理及后续扩展能力。
第三部分是Agent友好的任务机制。音视频任务通常是异步的,不适合仅靠一次命令返回就判断成功。AI MediaKit CLI + Skill将task_id、任务查询、轮询等待、终态结果回收等流程下沉到工具层,使Agent无需依靠“记忆”判断何时回来查询任务。开发者可以通过两行命令快速上手:
快速开始
npm install -g @volcengine/mediakit-cli
npx skills add volcengine/mediakit-cli -g -y
其中,mediakit-cli负责执行音视频任务;npx skills add会把AI MediaKit Skills分发到本机支持的Agent runtime中。安装完成后,Agent就能通过自然语言调用这些能力。

从一句话,到一条可交付视频
举个例子,用户说:“帮我把这个视频前10秒剪出来,再加上字幕。”接入AI MediaKit CLI + Skill后,Agent可以自动识别这是一个剪辑任务,调用editing Skill,生成对应的裁剪和加字幕命令,执行任务并返回最终视频。
再比如:“把这条短剧素材做一下画质增强,输出1080p版本。”Agent能够调用video Skill,将任务提交到云端画质增强能力,并通过shared Skill轮询任务状态,直到获取最终产物。
在更复杂的场景中,Agent还可以将多个能力编排成工作流:先擦除原字幕,再重新压制新字幕;先裁剪多个片段,再拼接成片;先生成素材,再做画质增强与平台规格适配。
模型擅长生成,AI MediaKit负责将生成的素材处理成真正可上线、可分发、可消费的成片。

不是API Wrapper,而是Agent的工作台入口
AI MediaKit CLI + Skill并非简单将API包装成命令。它围绕Agent使用场景做了几项关键设计。
能力结构化。Agent无需凭经验猜测命令和参数,而是可以通过Skill描述清晰理解每个能力的用途、输入和调用方式。
长任务可回收。音视频任务通常耗时较长。CLI + Skill将任务提交、状态查询、终态判断和结果回收下沉到工具层,让Agent能够稳定完成长链路任务。
端云协同。基础剪辑类任务适合在本地完成,成本低、确定性强;画质增强、字幕擦除等重算力任务则交给云端。Agent无需理解底层算力细节,只需围绕目标编排任务。
多入口统一底座。企业后端可以走API,开发者和CI可以走CLI,Agent用户可以走Skill。不同入口服务于不同使用场景,但连接的是同一套AI MediaKit能力体系。这使得AI MediaKit不仅仅是一个能力集合,而是逐步成为面向Agent的音视频工作台。
面向更大的音视频 Agent 生态
从内容创作到企业生产,音视频任务天然是长链路任务。一次成片往往涉及理解、剪辑、字幕、音频、增强、导出等多个环节。过去,这些环节需要用户操作多个软件,或者开发者手动接入多个API。Agent带来的变革在于,这些工作可以被重新组织成自然语言驱动的工作流。
对开发者而言,AI MediaKit CLI + Skill降低了接入门槛;对Agent来说,它提供了一组可调用、可组合、可回收结果的音视频工具;对内容生产场景而言,它让从生成到交付的链路更加自动化和稳定。未来,随着AI MediaKit 100+音视频能力持续开放,CLI和Skill也会同步跟进,使更多音视频处理能力融入Agent工作流。
模型让Agent拥有生成内容的大脑。AI MediaKit CLI + Skill,则让Agent拥有处理和交付音视频的工作台。让Agent成为音视频工作台,这只是第一步。
了解更多
访问AI MediaKit 产品官网
访问mediakit-cli GitHub 开源仓库
快速开始:安装 CLI 与 Skill
npm install -g @volcengine/mediakit-cli
npx skills add volcengine/mediakit-cli -g -y

你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:AI MediaKit CLI+Skill发布 Agent化身音视频工作台要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
