微软Azure AI语音服务虚拟人形象支持文本转视频
微软AzureAI语音服务推出文本到语音虚拟人功能,可将文本转化为真人说话视频,输出1080p分辨率。支持预设形象、实时或批量合成,内置创作工具,按视频时长计费,已在多个区域上线。
微软在人工智能语音领域持续发力,近日再度推出创新功能。Azure AI语音服务新增了一项引人瞩目的能力——文本到语音虚拟人,简而言之,可将一段文字直接转化为逼真的真人说话视频。今天,这项功能已正式全面上线。
该功能的官方命名为Text to Speech A vatar(文本转语音虚拟人)。开发者可以借助这一能力,为自身用户打造个性化的虚拟形象。输出视频分辨率达到1920×1080,帧率为25fps,画质清晰细腻。以下是一段官方展示视频:

这个虚拟人功能的核心亮点非常集中,具体如下:
- 将输入文本直接转换成流畅自然的人声讲话视频,声音部分由Azure AI文本转语音引擎驱动,听感真实不生硬。
- 提供多款预设人物形象供用户自由选择,满足不同场景需求。
- 每个形象对应的语音同样由Azure AI文本转语音实时合成,音画高度匹配。
- 支持两种合成模式:通过批量合成API异步生成,或者实时合成视频,灵活适配业务需求。
- 在Speech Studio中内置了内容创建工具,即使没有编程经验,也能直接上手制作虚拟人视频。
- 实时聊天头像工具让虚拟人对话成为可能,适用于智能客服、在线直播等交互场景。
关于定价,文本转视频服务采用直接计费方式——按生成的视频时长收费,每秒单价明确。目前该服务已在东南亚、北欧、西欧、瑞典中部、美国中南部及美国西部等区域上线。对于有全球化业务拓展需求的团队而言,这些区域的节点已能覆盖大部分应用场景。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:微软Azure AI语音服务虚拟人形象支持文本转视频要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
