数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Kimi开源Moonlight-16B基于Muon优化器的高效大模型性能训练效率双突破

AI热点日报时间：2026-07-01

热点解读

Kimi最近开源了Moonlight-16B-A3B，这个模型基于Muon优化器，在性能和训练效率上实现了双突破。这里有几个关键点：Muon优化器在大规模模型上的应用和扩展技术、Moonlight系列模型的参数规模与训练数据、以及Kimi开源的一系列资源，对后续研究和落地都很有价值。 01 前言 M

Kimi最近开源了Moonlight-16B-A3B，这个模型基于Muon优化器，在性能和训练效率上实现了双突破。这里有几个关键点：Muon优化器在大规模模型上的应用和扩展技术、Moonlight系列模型的参数规模与训练数据、以及Kimi开源的一系列资源，对后续研究和落地都很有价值。

Kimi开源Moonlight-16B-A3B：基于Muon优化器的高效大模型，性能与训练效率双突破！

01 前言

Muon优化器在训练小模型时表现很亮眼，但能否扩展到大规模模型，之前一直没得到验证。Kimi这次找到了两个扩展Muon的关键技术：

权重衰减：对扩展到更大模型至关重要
一致的RMS更新：在模型更新中保持均方根的一致性

有了这两点，Muon在大规模训练中几乎可以开箱即用，不需要额外调超参。扩展定律实验也证实了这一点：在计算最优的训练配置下，Muon相比默认的AdamW优化器，样本效率能提高约2倍。

基于这些改进，Kimi用Muon训练了Moonlight-16B-A3B系列模型。这是一个16B参数的专家混合（MoE）模型，激活参数只有3B，训练数据用了5.7T个token。这个模型刷新了当前的帕累托前沿——用更少的训练FLOPs，就达到了比以往模型更好的性能。

同时，Kimi开源了内存优化和通信效率都很高的Muon实现，还发布了预训练、指令微调和中间检查点，给后续研究提供了很好的基础。

技术贡献主要包括：

Muon有效扩展分析：通过大量实验，研究团队发现权重衰减在Muon的可扩展性中起到决定性作用。此外，通过参数级别的更新尺度调整，让不同的矩阵和非矩阵参数之间保持一致的更新均方根（RMS），大大提升了训练稳定性。
高效分布式实现：团队开发了带ZeRO-1风格优化的Muon分布式版本，既保证了内存效率最优，又减少了通信开销，同时还保留了算法的数学特性。
扩展定律验证：实验对比了Muon和强大的AdamW基线，结果非常清楚（见图1）。根据扩展定律，Muon只需要大约52%的训练FLOPs，就能达到与AdamW训练对应模型相当的性能。

【图1：扩展定律实验对比】
(a) Muon与AdamW的扩展定律实验对比，Muon样本效率是Adam的2倍；
(b) Moonlight模型（使用Muon优化）与其他可比较模型在MMLU上的表现。

Moonlight在性能与训练FLOPs的权衡上，确实推进了帕累托前沿。

02 性能

将Moonlight与类似规模的公开模型做对比，结果很有意思：

LLAMA3-3B：3B参数密集模型，用了9T个token训练
Qwen2.5-3B：3B参数密集模型，18T token
Deepseek-v2-Lite：2.4B/16B参数的MoE模型，5.7T token

	基准测试（指标）	Llama3.2-3B	Qwen2.5-3B	DSV2-Lite	Moonlight
	激活参数†	2.81B	2.77B	2.24B	2.24B
	总参数†	2.81B	2.77B	15.29B	15.29B
	训练token数	9T	18T	5.7T	5.7T
	优化器	AdamW	*	AdamW	Muon
英语	MMLU	54.75	65.6	58.3	70.0
	MMLU-pro	25.0	34.6	25.5	42.4
	BBH	46.8	56.3	44.1	65.2
	TriviaQA‡	59.6	51.1	65.1	66.3
代码	HumanEval	28.0	42.1	29.9	48.1
	MBPP	48.7	57.1	43.2	63.8
数学	GSM8K	34.0	79.1	41.1	77.4
	MATH	8.5	42.6	17.1	45.3
	CMath	-	80.0	58.4	81.1
中文	C-Eval	-	75.0	60.3	77.2
	CMMLU	-	75.0	64.3	78.2

03 模型推理

推理代码可以直接用，很简单：

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "moonshotai/Moonlight-16B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

prompt = "1+1=2, 1+2="
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

显存占用情况如下：

04 Muon优化器微调

ms-swift已经第一时间接入了Muon优化器。这个框架是魔搭社区提供的大模型训练部署工具，开源在GitHub上（可自行搜索ms-swift获取）。

目前Moonlight-16B-A3B系列MoE模型还不支持进一步微调（因为topk_method='noaux_tc'），所以我们用Moonshot改进的Muon优化器来微调dense模型。下面以Qwen2.5-7B-Instruct为例，演示如何用swift实现基于Muon的微调。

先准备好环境：

# pip install git+https://github.com/modelscope/ms-swift.git

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .

微调脚本如下：

# 17GB
# ref: https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py
CUDA_VISIBLE_DEVICES=0 swift sft \
  --model Qwen/Qwen2.5-7B-Instruct \
  --train_type lora \
  --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' 'AI-ModelScope/alpaca-gpt4-data-en#500' 'swift/self-cognition#500' \
  --optimizer muon \
  --torch_dtype bfloat16 \
  --num_train_epochs 1 \
  --per_device_train_batch_size 1 \
  --per_device_eval_batch_size 1 \
  --learning_rate 1e-4 \
  --lora_rank 8 \
  --lora_alpha 32 \
  --target_modules all-linear \
  --gradient_accumulation_steps 16 \
  --eval_steps 50 \
  --sa ve_steps 50 \
  --sa ve_total_limit 5 \
  --logging_steps 5 \
  --max_length 2048 \
  --output_dir output \
  --system 'You are a helpful assistant.' \
  --warmup_ratio 0.05 \
  --dataloader_num_workers 4 \
  --model_author swift \
  --model_name swift-robot

训练显存占用：

如果要使用自定义数据集，按下面格式组织数据，然后指定`--dataset `即可：

{"messages": [{"role": "user", "content": "浙江的省会在哪？"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}
{"messages": [{"role": "system", "content": "你是个有用无害的数学计算器"}, {"role": "user", "content": "1+1等于几"}, {"role": "assistant", "content": "等于2"}, {"role": "user", "content": "再加1呢"}, {"role": "assistant", "content": "等于3"}]}

训练完成后，用以下命令对训练后的权重进行推理（注意替换`--adapters`为实际checkpoint路径，swift会自动从adapters文件夹读取参数）：

CUDA_VISIBLE_DEVICES=0 swift infer \
  --adapters output/vx-xxx/checkpoint-xxx \
  --stream true \
  --temperature 0

训练效果：

最后，如果需要推送模型到ModelScope，可以用export命令：

CUDA_VISIBLE_DEVICES=0 swift export \
  --adapters output/vx-xxx/checkpoint-xxx \
  --push_to_hub true \
  --hub_model_id '' \
  --hub_token ''

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Kimi开源Moonlight-16B基于Muon优化器的高效大模型性能训练效率双突破要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025022563245.html

ai 人工智能

上一篇：算力短缺瓶颈显现谷歌限制Meta访问Gemini模型

下一篇：Automate 2026人形机器人热潮背后的工业价值

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本周一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本周WhisperNotes智能音频笔记应用 04 / 本周Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本周字节将河马爱学并入豆包构筑AI产品全家桶

01 / 本月Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本月一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本月WhisperNotes智能音频笔记应用 04 / 本月Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本月字节将河马爱学并入豆包构筑AI产品全家桶

热点快看

07-02 14:27Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 07-02 14:27一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 07-02 14:27WhisperNotes智能音频笔记应用 07-02 14:27Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 07-02 14:26字节将河马爱学并入豆包构筑AI产品全家桶

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别