首页
科技
FFmpeg新增AI语音识别功能,支持自动生成视频字幕

FFmpeg新增AI语音识别功能,支持自动生成视频字幕

热心网友
9727
转载
2025-08-18

8月13日最新消息,开源多媒体框架FFmpeg迎来重要更新,新增了一个名为af_whisper的音频处理工具,使其生态系统首次具备了原生自动语音识别(ASR)能力。

媒体播放器通用框架

这个创新工具基于whisper.cpp库开发,将AI语音识别模型深度整合到媒体处理流程中。用户现在可以直接在FFmpeg中进行灵活的音频转文字操作,包括选择不同精度的AI模型、指定识别语言,以及输出文本、SRT字幕或JSON格式等多种选择。

特别值得一提的是,af_whisper不仅支持对预录制文件进行处理,还能实时处理音频流。更智能的是,该工具集成了语音激活检测(VAD)技术,能够自动识别有效语音段落,大幅提升转写准确率和处理效率。

媒体播放器通用框架

对于需要处理大量音频的专业用户来说,该工具还提供了GPU加速支持,可以显著缩短处理时间。这项功能的加入意味着用户不再需要依赖外部工具进行复杂的多步骤处理,现在只需通过简单的命令行操作,就能完成从音频到文字的一站式转换。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新文章

上海芯联芯不服45万元赔偿判决,正式上诉龙芯中科

8月14日消息,日前龙芯中科发布公告称,其与上海芯联芯的名誉权纠纷案件已进入二审阶段。上海芯联芯不服北京互联网法院的一审判决,已提起上诉,请求撤销原判并驳回龙芯中科的全部诉讼请求。这场诉讼始于202

2025-08-18.
8921

京东2025年Q2财报:营收3567亿,活跃用户增长40%创新高

8月14日消息,今天京东集团发布2025年第二季度财报,营收达3567亿元人民币,同比增长22 4%。从利润层面来看,归属于公司普通股股东的净利润为62亿元人民币,而2024年第二季度这一数据为12

2025-08-18.
4794

Java 25正式版9月16日发布,弃用32位x86架构

8 月 13 日消息,Java 25 长期支持版本(LTS)现已进入发布候选(RC)阶段,首个 RC 版本已发布,正式版(GA)计划 2025 年 9 月 16 日发布。本次 RC 为第一版,第二

2025-08-18.
3010

格力电器更名风波:从"格力好物指南"回归"董明珠健康家"

8月14日消息,今日,珠海格力电器股份有限公司的品牌最新服务公众账号“格力好物指南”的认证又改回“董明珠健康家”。而就在前一天(8月13日),“董明珠健康家”进行了认证变更,改名“格力好物指南”。对

2025-08-18.
1198

DeepSeek AI新增对话分享功能,一键生成图文内容

8 月 14 日消息,DeepSeek App 应用昨日(8 月 13 日)更新至 1 3 0 版本,在修复部分已知问题,优化选择 复制文本体验之外,本次更新最大的亮点,就是新增了对话内容生成

2025-08-18.
7750

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
开动脑筋小能手
开动脑筋小能手 休闲益智 2025-08-11更新
查看
全民脑洞王者
全民脑洞王者 休闲益智 2025-08-11更新
查看
女神特战队
女神特战队 休闲益智 2025-08-11更新
查看