月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
月之暗面Kimi开源Moonlight:30亿/160亿参数混合专家模型
技术圈传来新动静。2月24日消息,月之暗面Kimi团队在昨日发布了一份关于“Muon优化器可扩展用于大语言模型训练”的技术报告,同时揭晓了基于此技术训练的模型产品“Moonlight”——一个包含30亿和160亿参数版本的混合专家模型。关键之处在于,它仅使用了5.7万亿个token进行训练,却在消耗更低计算量(FLOPs)的条件下,实现了更优的性能表现,直接改写了当前效率的“帕累托边界”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

根据报告,团队在研究中发现,Muon优化器可以通过一系列技术进行有效扩展。具体来说,就是通过引入权重衰减机制,并对每个参数的更新幅度进行精细校准。这一发现带来了一个显著的实用亮点:
- 这些技术让Muon能够直接应用于大规模训练场景,几乎不需要额外调整超参数。扩展性实验证明,与遵循计算最优法则训练的AdamW优化器相比,Muon实现了约两倍的计算效率提升。
这次论文中展示的核心模型是Moonlight-16B-A3B。它的总参数量达到152.9亿,激活参数量为22.4亿。正是基于Muon优化器,并在5.7万亿token的庞大数据集上训练,才取得了上述突破性成绩。
- 可以确定的是,该模型不仅突破了现有的帕累托效率边界,更在训练所需计算量大幅缩减的前提下,达到了超越以往模型的性能水平。
- 团队同时开源了经过内存和通信效率优化的分布式Muon实现。此外,他们还发布了预训练模型、指令微调模型以及多个中间训练检查点,目的很明确:为后续的同行研究提供扎实的基础设施。
相关资源链接如下:
- GitHub:点此前往
- Hugging Face:点此前往
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
星途EX7全球上市:双动力选择加持,智能安全奢华体验全面升级
星途EX7全球上市:六款车型双动力出击,重塑C级智能电动新标杆 汽车市场的新品浪潮中,总有几个时刻值得被记住。星途EX7的全球上市发布会,无疑就是这样一个高光时刻。这款新车一口气带来了六款配置,横跨纯电与增程两大动力路线,选择可谓相当丰富。具体来看,增程版提供了两驱Max、四驱Max和四驱EMB U
创新艺术字 : 创意艺术字生成
需求人群 如果你是一名设计师,正在为新的视觉项目寻找独特的字体灵感;或者是一位艺术家,希望为作品注入别具一格的文字元素;又或者,你身处广告创意行业,急需那些能瞬间抓住眼球的设计素材——那么,创新艺术字工具很可能就是你的创意弹药库。它精准服务于这些需要将文字本身作为艺术载体进行深度创作的场景。 产品特
QWIP : 随时随地咨询人工智能专家。
需求人群 当你突然遇到一些专业问题,身边又找不到可靠的人商量时,这个应用就派上用场了。比如身体有点小状况心里犯嘀咕,或者合同条款看不懂心里没底,再或者是想复刻某道美食却总差点意思——这种时候,你需要的其实就是一位能随时响应的专业人士。 使用场景 想象一下这些情形:用户A在人生地不熟的旅途中突然身体不
Skillflow : AI学习平台,简单、有趣、上瘾
需求人群 如果你正在寻找一种真正个性化的学习路径,希望高效提升自己的认知能力,或者单纯想找回那种沉浸式、高度专注的学习心流,那么这款工具可能正对你的胃口。它瞄准的,正是那些不满足于千篇一律的教学内容,追求智力挑战与乐趣并存的终身学习者。 使用场景 它的应用场景相当具体且深入。比如,当你决心啃下编程这
复工首日 DeepSeek 婉拒所有采访,有人已蹲守 5 次、日韩媒体来得最多
复工首日,DeepSeek门前:一次被婉拒的全球“围观” 春节假期后的第一个工作日,气氛总有些特别。对于坐落在汇金国际大厦的DeepSeek而言,这个早晨尤为引人注目。大楼门口,除了匆匆赶回工位的员工,还多了一群扛着“长枪短炮”的熟悉面孔——各家媒体的记者们早已在此守候。 现场的阵仗不小。据都市日报
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

