数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI

国产算力开源训练全流程：看“开元”如何稳健崛起

国产算力开源训练全流程：看“开元”如何稳健崛起

热心网友时间：2025-12-21

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

新智元报道

编辑：LRST

【新智元导读】当算力受限、数据参差，如何训练出高效可用的端侧模型？鹏城实验室联合清华不仅给出了答案，更将每一步都开源共享。

如果实验室只有国产算力、有限资源与开源数据，能否玩转端侧模型的预训练？

鹏城实验室与清华大学PACMAN实验室联合发布了鹏城脑海‑2.1‑开元‑2B（PCMind‑2.1‑Kaiyuan‑2B，简称开元‑2B）模型，并以全流程开源的方式回应了这一挑战——从训练数据、数据处理框架、训练框架、完整技术报告到最终模型权重，全部开源。

模型链接：https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B

数据集：https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B

技术报告：https://arxiv.org/abs/2512.07612

数据处理框架：https://github.com/thu-pacman/Kaiyuan-Spark

训练框架：https://github.com/thu-pacman/kaiyuan-mindformers

此次开源不仅为国内研究者提供了一条可复现、可迭代的技术路径，也展现了在国产计算平台上实现高效、稳定预训练的完整解决方案。

开元‑2B的训练依托鹏城脑海 2计算平台，数据处理基于华为鲲鹏920，训练系统基于华为昇腾 910A。

由于昇腾910A仅支持FP16精度（类似于NVIDIA V100），训练稳定性成为首要挑战。

为此，研究团队在 Qwen3‑1.7B 的架构基础上，引入了三明治范数（Sandwich Norm）与软裁剪（Soft Clipping）两项关键技术。

三明治范数：在Transformer每层前后保留归一化层，有效控制梯度传播中的数值范围

软裁剪：通过对输出logits应用tanh非线性变换，将数值稳定在合理区间内，防止训练发散

加上三明治范数和软裁剪前后的数值稳定性对比

这些技术不仅使训练在FP16环境下保持稳定，也为后续国产平台上的大规模训练提供了重要参考。

开源数据

去重、评价与高效利用

当前开源预训练数据规模已达TB级别，来源多样、质量不均，如何从中筛选出高质量部分并制定混合策略，是训练优质模型的基础。

开元‑2B面对两个核心问题：

如何从海量数据中筛选高质量子集？

如何在不同数据集之间建立统一的质量评价标准？

全局去重的高效实现：Kaiyuan‑Spark框架

研究团队开发了Kaiyuan‑Spark数据处理框架，采用树状流水线设计，全程YAML配置管理，易于复现与扩展。

结合诸葛弩计算框架进行本地加速，在 MinHash 去重任务中实现端到端2.5倍的加速比，高效完成TB级数据的全局模糊去重。

分位标定（Quantile Benchmarking）

为解决数据集之间质量标签不可比的问题，团队提出分位标定：通过设计小规模探针实验，构建数据质量分数与下游任务表现之间的映射关系。

分位标定流程示意图

具体做法为：从不同数据集中按质量分位数抽取多个子集，然后使用小规模模型进行训练测试，最后根据下游任务表现反向标定各数据集的质量区间。

该方法成本低、可迁移，为后续大规模训练的数据配比提供了科学依据。

关键发现

基于分位标定，团队得出若干有趣发现：

数据集的优势与任务类型相关

Fineweb‑Edu在知识问答与阅读理解类任务上表现更好，DCLM‑Baseline 在常识推理类任务中略有优势。

DCLM Baseline和Fineweb-Edu在MMLU和WinoGrande上的分位标定结果

同一数据集内部质量差异巨大

最高与最低质量数据在ARC‑Easy上的表现相差可达8%‑15%

DCLM Baseline和Fineweb-Edu在ARC-Easy上的分位标定结果

可以看到，高质量数据占比虽小，却是提升模型能力的关键。

数据利用策略

动态调整与课程学习

针对数据分布不均的问题，开元‑2B提出三个策略。

多阶段动态比例调整

随着训练推进，逐步提升数学、代码、中文等领域数据的比例，缓解模型遗忘，使关键领域在训练后期得到充分学习。

多阶段调整数据比例

策略性数据重复

小规模实验表明，对高质量数据进行适度重复训练，效果优于单轮训练。开元‑2B在训练后期逐步提高高质量数据的重复比例。

以Fineweb-Edu为例：Top 10%的高质量数据在整个训练过程中出现多次，中低质量数据仅出现一次，从而优化数据效用分布。

Fineweb-Edu在多阶段训练中采样比例变化

多领域混合课程学习

研究团队提出Curriculum Decay Model Average，在课程学习的基础上引入权重平均，缓解训练噪声，提升收敛稳定性。

论文链接：https://arxiv.org/abs/2511.18903

该方法通过领域内质量排序与领域间比例均衡的结合，实现多领域数据的渐进式学习。

学习率衰减会影响课程学习效果

不同学习率衰减条件下，最优的课程学习+权重平均配置（Ascend+EMA）要强于最优的常见做法（Uniform+WSD）

多领域课程的实现

配合精心设计的学习率调度方案，模型在高质量数据上得以充分学习，最终在多类评测中接近千问系列（仅开源权重）的模型表现。

全流程开源

推动国产AI生态共建

开元‑2B不仅是一次端侧模型训练的实践，更是一次全栈开源、全流程透明的技术示范。

从数据处理框架Kaiyuan‑Spark、训练数据集，到数据评价体系、课程学习策略，所有环节均公开可复现。训练中涉及的所有原始数据集均具有宽松的开源协议（如CC、Apache、MIT、ODC等，详细列表技术报告附录B），个人、院校、企业均可自由使用，进一步提升了训练的可复现性。

注：目前部分声称「开放」的公开数据集，事实上本身并非使用自由许可证授权，或者间接混入了带有非自由许可证的原始数据；另有大量的公开数据集，对来源数据的许可证未加任何筛选或说明。在模型训练中使用此类数据集并发布或使用，都可能带来潜在的法律合规风险。

这为国内研究者在国产算力平台上开展模型预训练提供了完整工具箱，也为构建开放、协作的 AI 研发生态迈出坚实一步。

模型权重、技术报告与相关代码已在最新平台发布，欢迎开发者、研究者共同参与测试、改进与拓展。

结语

真正的技术进步源自开放的协作与共享，开元‑2B是一个起点，未来与社区一起，在国产算力的土壤上，生长出更多创新的AI成果，从开元系列，开启国产算力训练的「开元盛世」。

附录

左右滑动查看

参考资料：

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

来源:https://www.163.com/dy/article/KH9RKMS50511ABV6.html

上一篇：清华孙茂松谈工业大模型：Scaling是基石，垂直应用是关键

下一篇：苹果基础模型新掌舵人：库克提拔复旦校友，涨薪应对庞若鸣离职

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

1.4 万亿词元！阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1.4 万亿词元！阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1 4 万亿词元！阿里 Qwen3 6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录这事儿挺震撼的。就在4月4日，全球最大的AI模型聚合平台OpenRouter在其官方账号上公布了一个爆炸性数字：阿里刚刚发布的千问新模型Qwen3 6-Plus，上线仅仅一天，日调用量

时间：2026-04-04 13:52

实战指南：基于快马平台深度开发，构建企业级workbuddy团队项目管理看板

实战指南：基于快马平台深度开发，构建企业级workbuddy团队项目管理看板

深度开发指南：利用快马平台高效构建企业级WorkBuddy团队项目管理看板近期在开发团队协作工具WorkBuddy的项目管理模块时，传统开发模式的周期漫长令人困扰。转而采用快马平台（即InsCode）后，开发效率得到显著提升。本文将详细分享如何基于快马平台，快速搭建一个功能完善、体验流畅的企业级项

时间：2026-04-04 10:35

消息称 Meta 低调组建独立硬件团队，打造以多种形态陪伴人类的智能体

消息称 Meta 低调组建独立硬件团队，打造以多种形态陪伴人类的智能体

消息称 Meta 低调成立独立硬件部门，致力于研发多形态人类陪伴型智能体设备 4月4日凌晨，《商业内幕》发布独家报道引发行业关注。多位知情人士透露，Meta公司正悄然为其“超级智能”业务线组建一支独立的硬件研发团队，并任命资深硬件工程师负责整体管理。此举被视为Meta在人工智能设备战略布局上的关键一

时间：2026-04-04 08:55

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

这是 AI 认知架构实战笔记系列的第 2 篇上一篇我们聊了「给 AI 写灵魂文件」这件事，这一篇，我们来看看，当这份灵魂文件真正运转起来之后，现实究竟会给我们带来多少“惊喜”——或者更准确地说，是漏洞。项目名为 WorkBuddy-Configure，已部署在 gitee 和 gitcode 上

时间：2026-04-03 17:56

OpenClaw给每个Agent单独指定workspace

OpenClaw给每个Agent单独指定workspace

OpenClaw中为每个Agent配置独立工作区的最佳实践在大模型智能体协作平台上，实现多个Agent之间的文件隔离是确保项目管理井然有序的关键需求。如果您正在使用OpenClaw平台，为不同角色的智能体分配专属工作空间可以有效避免文件冲突、权限混乱等问题。本指南将详细介绍在OpenClaw中为每

时间：2026-04-03 17:15

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

阴阳师蝉冰雪女技能是什么-阴阳师蝉冰雪女有哪些技能

决战平安京八周年如何-决战平安京八周年怎么样

二十载RGB技术沉淀，索尼以真实色彩引领显示未来

空灵诗篇不死型精灵如何配装-空灵诗篇不死型精灵配装方法

《空洞骑士》意外获更新九年的bug终于被修复！

梦幻西游属性点切换找谁-2026梦幻西游属性点切换去哪里找

《鬼泣》+《星际战甲》！育碧新作《异变金属》公开

迷你世界从哪里兑换激活码

洛克王国世界星光狮图鉴

Pages怎么链接文本框-Pages如何给文本框添加链接

戴尔电脑恢复出厂设置方法：关键按键与操作解析

电脑睡眠后黑屏唤醒失败？5步教你有效解决重启问题

解压视频文件，电脑播放必备指南

电脑蓝屏解决全攻略：排查与修复系统崩溃教程

文件夹无法删除怎么办？4个强制删除方法

惠普战系列办公主机组装指南：打造高效办公电脑配置

解决鼠标滚轮失灵：3步自查与修复窍门【修复指南】

电脑误删文件恢复方法：4种实用方案找回数据

电脑截屏快捷键大全：快速截屏的3种高效方法

电脑多显示器设置指南：3步轻松扩展工作桌面

《人之初》首播：双线叙事成新悬疑样本，口碑褒贬不一

OpenAI急招安全负责人：年薪高达55.5万美元及股权

台积电3纳米芯片报价受AI热潮驱动，预计下月上涨

AI伪证呈堂被训诫：原告伪造带水印电子证据案

小米空气净化器十年领跑：线上销量第一，出货量破2500万台

蚂蚁阿福声明：问答结果无任何广告推荐与商业排名

AI机器人辅助精神科诊疗，潜在关联病例解析

我国AI地震监测达国际先进水平，核心技术实现实时预警

荣耀ROBOT PHONE真机体验：全球首款机器人手机亮相当下

全球首台30兆瓦纯氢燃气轮机投用，清洁能源新突破

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

哔哩喵app时光姬设置教程

哔哩喵app时光姬设置教程发布于 2026-04-04

新片场app视频下载教程

新片场app视频下载教程发布于 2026-04-04

《异兽灵境》炎帝介绍

《异兽灵境》炎帝介绍发布于 2026-04-04

这城有良田僚属威仪提升方法

这城有良田僚属威仪提升方法发布于 2026-04-04

《三国：天下归心》袁绍介绍

《三国：天下归心》袁绍介绍发布于 2026-04-04

《头号禁区》工厂拉闸玩法介绍

《头号禁区》工厂拉闸玩法介绍发布于 2026-04-04

《永劫无间》快速升龙攻略

《永劫无间》快速升龙攻略发布于 2026-04-04

哔哩猫app适配手表设置

哔哩猫app适配手表设置发布于 2026-04-04

钓鱼巨物猎手路亚钓怎么钓-钓鱼巨物猎手路亚钓法介绍

钓鱼巨物猎手路亚钓怎么钓-钓鱼巨物猎手路亚钓法介绍发布于 2026-04-04

现代战舰是什么类型的游戏-现代战舰属于哪种游戏

现代战舰是什么类型的游戏-现代战舰属于哪种游戏发布于 2026-04-04

吉星派对社员叔叔派德曼技能如何-吉星派对社员叔叔派德曼技能介绍

吉星派对社员叔叔派德曼技能如何-吉星派对社员叔叔派德曼技能介绍发布于 2026-04-04

魔法工艺第三关怎么过-魔法工艺第三关通关方法

魔法工艺第三关怎么过-魔法工艺第三关通关方法发布于 2026-04-04

英雄联盟手游芮尔何时上线-英雄联盟手游芮尔推出时间

英雄联盟手游芮尔何时上线-英雄联盟手游芮尔推出时间发布于 2026-04-04

存储芯片短缺索尼宣布暂停CFexpress与SD卡销售

存储芯片短缺索尼宣布暂停CFexpress与SD卡销售发布于 2026-04-04

《星际火狐》重获玩家关注初代开发者发文表示感谢

《星际火狐》重获玩家关注初代开发者发文表示感谢发布于 2026-04-04

曝知名mod平台N网恶意打压竞争对手！威胁社区封杀

曝知名mod平台N网恶意打压竞争对手！威胁社区封杀发布于 2026-04-04

老人助听器应该怎么选择才合适

老人助听器应该怎么选择才合适发布于 2026-04-04

三星冰箱排水孔怎么清理？

三星冰箱排水孔怎么清理？发布于 2026-04-04

移动电源用国产电池靠谱吗

移动电源用国产电池靠谱吗发布于 2026-04-04

笔记本内存条型号参数从哪里找？

笔记本内存条型号参数从哪里找？发布于 2026-04-04

西门子助听器调声音能调多大音量

西门子助听器调声音能调多大音量发布于 2026-04-04

虚拟内存怎么变大？

虚拟内存怎么变大？发布于 2026-04-04

u盘装系统进PE到底按啥键

u盘装系统进PE到底按啥键发布于 2026-04-04

集线器怎么使用支持千兆网络吗

集线器怎么使用支持千兆网络吗发布于 2026-04-04

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

鸣人的假期中文版下载-鸣人的假期游戏合集-鸣人的假期版本大全

鸣人的假期中文版下载-鸣人的假期游戏合集-鸣人的假期版本大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载