小米发布Xiaomi-MiMo-Audio语音大模型,实现拟人化对话交互

9月19日,小米科技正式对外发布业内首个开源的原生端到端语音大模型Xiaomi-MiMo-Audio,该模型首创性地在语音技术领域实现了基于上下文学习(ICL)的少量样本泛化能力。
小米研发团队表示,GPT-3在五年前就通过自回归语言模型配合海量无监督数据训练,率先展现了令人惊艳的上下文学习能力。然而在语音识别领域,现有模型仍然过度依赖标注数据,难以像人类一样快速适应新任务。
Xiaomi-MiMo-Audio的诞生打破了这一技术壁垒。该模型采用独创的预训练架构,依托上亿小时的语音数据进行训练,在多个维度上实现突破:
- 智商维度:提升语义理解与逻辑推理能力
- 情商维度:增强情感识别与表达水平
- 表现力:优化语音自然度与感染力
- 安全性:强化内容适配合规性
此项创新技术的主要突破点在于:
- 全球首次实证:当语音无损压缩预训练规模扩展至1亿小时时,模型会自发涌现出跨任务泛化能力,展现出惊人的Few-Shot Learning特性
- 首次系统定义语音生成式预训练的技术规范,并开放全套解决方案,涵盖无损压缩Tokenizer、创新模型架构、训练方法论及评估体系
目前,小米已通过Huggingface平台开源了模型的预训练和指令微调版本,同时在Github开放了Tokenizer模型代码。这款基于Transformer架构的1.2B参数量模型,支持音频重建和语音转文本双重任务。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
毕马威深圳论坛探讨AI如何推动能源转型与零碳发展
2025国际数字能源展近日在深圳会展中心拉开帷幕,这场以“深AI能源 数创未来”为主题的盛会,吸引了全球能源领域的领军企业与专业人士齐聚一堂。展会期间,各方围绕数字能源产业的发展方向、各国政策动向以
18岁天才涂津豪:DeepSeek实习生登上Nature封面,探索AI新突破
近日,科技领域一则重磅消息引发广泛关注——DeepSeek登上《自然》杂志封面,其研发的DeepSeek-R1成为全球首个通过严格同行评议的大模型。这一成果不仅彰显了中国在人工智能领域的科研实力,更
中科大孙玄揭秘2025:AI如何推动核聚变技术突破
“人工智能的终极目标指向能源,而能源的终极形态或许是核聚变。”在近日于上海世博园区举办的2025 Inclusion·外滩大会上,中国科学技术大学核科学与技术学院教授、星能玄光创始人孙玄在演讲中抛出
英特尔股价暴涨27%创38年纪录,与英伟达联手投资50亿美元开发芯片
美国股市近日迎来一波强劲涨势,三大股指集体收高并齐创历史收盘纪录。其中,芯片巨头英特尔的表现尤为亮眼,单日股价飙升超过27%,创下自1986年以来的近38年最大单日涨幅。这一异动背后,或与英伟达当日
中科大孙玄:AI助力核聚变研究,或将开创能源革命新纪元
在2025 Inclusion·外滩大会开幕式上,中国科学技术大学核科学与技术学院教授孙玄提出一个引人深思的观点:人工智能与核聚变的结合,或将开启人类文明的新纪元。这位星能玄光创始人强调,当前全球能
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

















