人大团队用1.08万亿训练数据打造2.4B小模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

人大团队用1.08万亿训练数据打造2.4B小模型

热心网友时间：2026-03-11

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这项由中国人民大学高瓴人工智能学院主导的研究发表于2024年12月，论文编号为arXiv:2412.17743v2，该研究详细阐述了YuLan-Mini语言模型的完整技术方案。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天，大型语言模型已经成为科技界的明星。然而，这些模型往往需要消耗巨大的计算资源和训练数据，就像建造一座摩天大楼需要无数钢筋混凝土一样。对于大多数研究机构和企业来说，训练这样的模型几乎是不可能完成的任务。正是在这样的背景下，中国人民大学的研究团队提出了一个颇具挑战性的问题：能否用相对较少的资源，训练出一个性能卓越的小型语言模型？

这个问题就像是在问：能否用一个小餐厅的食材和设备，做出米其林三星餐厅水准的菜肴？听起来几乎不可能，但研究团队偏偏做到了。他们开发的YuLan-Mini模型只有24亿个参数，相比之下，许多主流模型都有数百亿甚至数千亿参数。然而，这个"小个子"却在多项测试中表现出色，甚至能够与那些体型大它数倍的模型一较高下。

更令人惊讶的是，YuLan-Mini只用了1.08万亿个训练样本就达到了这样的效果。要知道，许多同行业的模型需要消耗18万亿甚至更多的训练数据。这就好比用一半的食材做出了同样美味的菜肴，其中的秘诀究竟在哪里？

研究团队的答案是：精工细作。他们没有简单粗暴地堆砌数据，而是像一位经验丰富的厨师一样，精心挑选每一种"食材"，巧妙搭配每一道"工序"。他们开发了一套完整的数据处理流程，就像建立了一条精密的生产线，每个环节都经过精心设计和优化。

这项研究的意义远不止于技术突破本身。对于那些没有巨大计算资源的研究机构和初创企业来说，YuLan-Mini提供了一个可行的替代方案。它证明了在人工智能的世界里，"小而精"同样可以战胜"大而全"。这就像是证明了一位技艺精湛的工匠，完全可以用简单的工具制作出精美的艺术品，不一定需要最昂贵的设备。

研究团队不仅公开了模型本身，还详细披露了整个训练过程的技术细节，包括数据的具体配比、训练的每个阶段、甚至是如何应对训练过程中的各种技术难题。这种开放的态度就像是一位大厨毫无保留地分享自己的秘方，让整个行业都能从中受益。

一、数据就是食材：精挑细选的1.08万亿训练样本

任何一道美味的菜肴都离不开优质的食材，而对于语言模型来说，训练数据就是这些关键的"食材"。YuLan-Mini的成功很大程度上归功于研究团队对数据的精心处理，这个过程就像是一位顶级厨师在菜市场精挑细选食材一样严谨。

在开始训练之前，研究团队面临的第一个挑战就是如何从浩如烟海的互联网数据中筛选出真正有价值的内容。互联网上的信息就像一个巨大的杂货铺，里面既有珍贵的宝藏，也有无用的垃圾。团队需要建立一套完整的筛选机制，确保进入模型的每一条数据都是高质量的。

整个数据收集过程涵盖了多个不同的领域。英文网页数据占了最大的比重，达到4810亿个训练样本，这些数据主要来自教育性质的内容。此外还包括1380亿个一般英文知识样本、2270亿个代码训练数据、167亿个代码指令数据、938亿个数学训练数据、155亿个数学指令数据，以及1080亿个中文数据样本。

数据筛选的第一步是去重处理。研究团队使用了一种叫做MinHash的算法，这就像是给每条数据生成一个独特的"指纹"。通过比较这些"指纹"，系统可以快速识别出重复或高度相似的内容并将其剔除。这个过程就像是在整理图书馆时，发现有多本相同的书籍，只保留其中一本即可。

接下来是启发式过滤，这个过程更像是一位经验丰富的编辑在审阅稿件。系统会自动检查每条数据的质量指标，比如长度是否合适、语言是否规范、内容是否有意义等。对于不同类型的数据，筛选标准也有所不同。比如对于代码数据，系统会检查代码的平均行长度、字母字符比例等技术指标。对于数学文本，系统会确保内容包含有意义的数学表达式，而不是乱码或无关内容。

为了进一步提升数据质量，研究团队还开发了一套基于机器学习的质量评分系统。这就像是请了一位专业的品酒师来为每瓶酒打分一样。系统会根据内容的教育价值、语言质量、信息密度等多个维度给每条数据打分，然后只选择高分数据进行训练。

特别值得一提的是，团队还进行了主题导向的文本召回。他们训练了专门的分类器来识别与数学、代码、推理相关的高质量文档。这就像是在海量的图书中，专门寻找与特定主题相关的珍贵资料。通过这种方式，他们从FineWeb-Edu和DCLM等大型数据集中提取了104亿个数学文本、11.1亿个代码文本和10.1亿个推理文本。

为了确保评估的公平性，研究团队还进行了去污染处理。这个过程就像是确保考试时学生没有提前看到答案一样重要。他们将训练数据与测试基准进行对比，如果发现训练数据中包含了测试题目或答案，就会将这些内容剔除，确保模型的性能评估结果真实可靠。

数据预处理的最后一步是词元化处理。研究团队选择了大约9.9万个词汇量的分词器，这就像是为一门语言制定标准的"词典"。他们还采用了BPE-dropout技术，这种方法可以帮助模型更好地理解词汇的内部结构，就像是教会模型如何拆解和理解复合词一样。对于数字的处理，团队选择将每个数字拆分成单独的字符，这样可以提高模型在数学计算方面的准确性。

通过这样精心的数据准备过程，YuLan-Mini最终使用的1.08万亿训练样本不仅数量适中，质量也达到了很高的水准。这就像是一位顶级厨师用精选的食材制作料理，虽然分量不大，但每一样都是精品。

二、训练稳定性：解决模型训练中的"情绪波动"

在训练大型语言模型的过程中，经常会遇到一个令工程师们头疼的问题：训练不稳定。这就像是在驾驶一辆性能车时，车子突然开始剧烈抖动或者失控，让人既紧张又困惑。对于语言模型来说，训练不稳定表现为损失值突然飙升、梯度爆炸或者训练过程完全崩溃。

研究团队在开发YuLan-Mini的过程中，深入研究了这个问题的根本原因。他们发现，传统的观点往往只关注表面现象，比如损失值的波动，但真正的问题其实隐藏得更深。通过大量的实验和理论分析，他们发现了一个重要的规律：模型内部的"隐藏状态"就像是训练过程的"情绪指标"，能够提前预警即将到来的不稳定。

这个发现可以用一个生动的比喻来理解。设想你在观察一个人的情绪变化，表面上看起来这个人很平静，但如果你仔细观察他的微表情、肌肉紧张程度等细微信号，你可能会发现他内心其实已经开始焦虑了。同样，模型的损失值可能看起来还正常，但内部的隐藏状态已经开始出现异常波动，预示着即将到来的训练崩溃。

为了验证这个理论，研究团队进行了精心设计的对比实验。他们训练了两个配置相似的小模型，一个采用了稳定化技术，另一个没有。结果发现，在不稳定的模型中，各层的隐藏状态方差呈现指数级增长趋势，就像滚雪球一样越来越大。而在稳定的模型中，这些数值保持在合理范围内。

通过深入的数学分析，团队识别出了导致训练不稳定的三个主要因素。第一个是残差连接导致的方差累积。在深度神经网络中，每一层都会在前一层的输出基础上添加新的信息，这就像是在一张纸上不断叠加新的涂料。如果处理不当，这种累积效应会导致数值越来越大，最终失控。

第二个因素是层归一化在输入偏离正常范围时的异常行为。层归一化本来是为了保持数据分布稳定而设计的，就像是一个自动调节器。但当输入数据的分布过于极端时，这个调节器本身可能成为问题的一部分，反而加剧了不稳定性。

第三个因素是注意力分数的异常增长。在Transformer架构中，注意力机制负责决定模型应该关注输入的哪些部分。但如果注意力分数变得过大，就像是一个人过度专注某件事而忽略了周围的一切，这种极端行为会导致整个系统失衡。

基于这些发现，研究团队开发了一套综合的稳定化解决方案。首先，他们采用了类似μP（Maximal Update Parametrization）的参数初始化方法。这种方法的核心思想是根据模型的规模来调整参数的初始值，确保不同大小的模型都能保持类似的训练动态。这就像是为不同身高的人定制合适的服装，确保每个人都能穿得合身舒适。

接着，他们引入了WeSaR重参数化技术。这种技术通过为每个权重矩阵添加一个额外的可学习参数，将梯度的更新分散到更多的参数上。这就像是将一个重物的重量分散到多个支点上，降低了单点故障的风险。

为了处理注意力分数的异常增长，团队还探索了QK层归一化等技术。虽然这种方法在理论上很有效，但会显著增加计算开销。经过权衡，他们最终选择了其他更加高效的解决方案。

在学习率调度方面，团队采用了WSD（Warmup-Stable-Decay）策略，这种方法包括三个阶段：预热、稳定和衰减。预热阶段就像是让发动机慢慢热身，学习率从很小的值逐渐增加到目标值。稳定阶段保持学习率不变，让模型充分学习。最后的衰减阶段则逐渐降低学习率，帮助模型收敛到更好的解。

通过这套综合方案，YuLan-Mini在整个训练过程中保持了良好的稳定性。训练曲线显示，模型的损失值平稳下降，没有出现剧烈波动或崩溃现象。这为后续的性能优化奠定了坚实的基础。

三、数据调度：如何安排1080亿个"学习课程"

训练一个语言模型就像是设计一套完整的教育课程，需要合理安排学习内容的顺序和比例。研究团队将YuLan-Mini的整个训练过程分为三个主要阶段，每个阶段都有不同的学习重点和数据配比，这种精心设计的安排被称为数据调度。

整个训练过程就像是一个学生从小学到大学的学习历程。预热阶段使用了100亿个样本，就像是幼儿园和小学阶段，主要目的是让模型熟悉基本的语言规律和表达方式。在这个阶段，模型学习的内容相对基础，涵盖了各种类型的文本，但重点是建立对语言结构的基本理解。

稳定训练阶段是整个过程的核心，使用了9900亿个样本，相当于中学和大学阶段的深入学习。在这个阶段，模型需要掌握更复杂的语言技能，包括推理、代码编写、数学计算等高级能力。为了更好地管理这个庞大的学习过程，研究团队将稳定训练阶段细分为25个连续的课程阶段，每个阶段包含400亿个样本。

每个课程阶段就像是一个学期的学习计划，有着明确的学习目标和内容配比。在课程设计时，团队会根据模型在各项基准测试上的表现以及验证文本的困惑度来微调下一个阶段的数据比例。这就像是老师根据学生的考试成绩来调整教学计划，哪门课程需要加强，哪些内容已经掌握得不错。

数据配比的基本原则是保持相对稳定，同时根据模型的学习进度进行微调。整体而言，英文网页和通用内容占60%，其中网页内容占45%，书籍、论文等其他资源占15%。代码相关数据占20%，数学相关数据占10%，中文数据占10%。这种配比就像是为学生安排的课程表，确保各个学科都有适当的学习时间。

随着训练的深入，数据配比会进行细微的调整。比如在稳定训练的后期，团队会逐渐增加指令数据的比例，但始终控制在5%以内。这就像是在学生接近毕业时，增加实习和实践课程的比重，帮助他们更好地应用所学知识。

在课程阶段的转换过程中，研究团队特别注意避免数据分布的剧烈变化。相邻两个阶段之间的数据比例变化被严格控制在3%以内，这样可以避免模型的学习过程出现突然的"震荡"。这就像是学校在调整课程安排时，不会一下子完全改变时间表，而是渐进式地进行调整，让学生有适应的时间。

课程内容的难度安排也经过了精心设计。对于数学和代码数据，研究团队使用质量分类器对内容进行评分，然后按照从易到难的顺序进行训练。这种方法被称为课程学习，就像是数学教学中先学加减法，再学乘除法，最后学微积分的渐进过程。

特别值得一提的是，团队在训练过程中大量使用了合成数据。这些合成数据包括各种类型的推理样本，从基础的数学计算到复杂的逻辑推理，从简单的代码练习到高级的算法实现。这就像是为学生准备了各种类型的练习题，确保他们能够全面掌握所学的知识。

数学推理数据的生成特别精细，包括了多种不同的类型。有基础的计算练习，也有需要多步推理的复杂问题。团队甚至生成了类似o1模型那样的长思考链数据，让模型学会在回答问题之前进行深入的思考。这就像是教会学生不仅要知道答案，还要理解解题的思路和过程。

代码相关的合成数据同样丰富多样，包括编程竞赛题目、开源项目指令、以及各种实际应用场景的代码示例。这些数据帮助模型不仅能够编写正确的代码，还能理解代码的应用场景和最佳实践。

通过这样精心设计的数据调度策略，YuLan-Mini在训练过程中能够逐步建立起全面而深入的语言理解能力。每个阶段都为下一个阶段的学习奠定基础，最终形成了一个知识结构完整、能力均衡的语言模型。

四、模型架构：打造2.4B参数的"精密机器"

YuLan-Mini的架构设计就像是建造一座精密的机械表，每个部件都经过精心设计和调校，确保整体性能达到最优状态。这个模型总共包含24.2亿个参数，其中22.3亿个是非嵌入参数，相比那些动辄数百亿参数的大模型，YuLan-Mini选择了"小而精"的设计理念。

整个模型采用了解码器型的Transformer架构，这是目前语言模型的主流设计。但在具体的细节设计上，研究团队进行了多项创新和优化。模型包含56层，每层的隐藏维度是1920，这种"高瘦型"的设计就像是建造一座细长但结构坚固的塔楼，能够在有限的参数预算内获得更深的网络层次。

在注意力机制的设计上，团队采用了分组查询注意力（GQA）技术。这种设计使用30个查询头和6个键值组，就像是在一个会议室中安排30个提问者，但只需要6个回答者来处理所有问题。这种不对称的设计既保证了模型的表达能力，又显著降低了计算开销，特别是在推理阶段的内存占用。

位置编码采用了旋转位置嵌入（RoPE）技术，这种方法能够更好地处理不同长度的文本序列。在基础训练阶段，RoPE的基频参数设置为10000，支持4096个标记的上下文长度。在退火阶段，这个参数被调整为490000，使模型能够处理长达28672个标记的长文本，这就像是给望远镜更换了更强大的镜头，能够看得更远更清楚。

激活函数选择了SwiGLU，这是一种门控线性单元，能够更好地捕捉复杂的数据关系。研究表明，这种激活函数在相对较小的语言模型中表现特别出色，就像是为精密仪器选择了最适合的传动机构。

层标准化方面，模型使用了Pre-RMSNorm，这种配置将标准化操作放在每个子层的前面，而不是后面。这样的设计能够提高训练的稳定性和收敛速度，同时RMSNorm相比传统的LayerNorm能够节省计算资源，就像是选择了更高效的润滑系统。

嵌入层设计采用了权重共享策略，将输入嵌入和输出嵌入使用相同的参数矩阵。这种设计不仅减少了参数数量，还提高了训练的稳定性，就像是在机械设计中使用通用部件，既节省了材料又提高了可靠性。

词汇表大小设定为99000，这个数字经过了精心计算和权衡。研究团队采用了三种不同的方法来确定最优的词汇表大小，确保在计算效率和表达能力之间找到最佳平衡点。他们复用了MiniCPM的字节对编码（BPE）分词器，但进行了适当的修剪和优化，移除了一些罕见的领域特定词汇，同时添加了一些保留词汇。

为了提高模型对数字的处理能力，团队采用了数字分解策略，将多位数分解为单个数字字符。这种方法虽然会稍微增加序列长度，但能显著提高数学计算的准确性，就像是教会计算器更仔细地处理每一位数字。

模型还引入了BPE-dropout技术，使用0.2的dropout率。这种技术能够帮助模型更好地理解词汇的内部结构，学会处理未见过的词汇组合，就像是教会学生不仅认识整个单词，还能理解单词的构成部分。

在参数初始化方面，团队采用了改进的初始化策略，结合了类μP初始化和WeSaR重参数化技术。每个权重矩阵都添加了额外的可学习缩放参数，这种设计能够更好地控制梯度流动，提高训练稳定性。

整个架构的设计理念是在有限的参数预算内最大化模型能力。通过精心的组件选择和参数调优，YuLan-Mini在保持紧凑体积的同时，实现了与更大模型相媲美的性能表现。

五、退火训练：最后冲刺的"精雕细琢"

训练语言模型的最后阶段被称为退火，这个名词来源于金属加工中的退火工艺。在金属加工中，退火是指将金属加热后缓慢冷却，以消除内应力，提高材料的韧性和加工性能。对于语言模型来说，退火阶段同样是一个精细化调整的过程，目的是在已有基础上进一步提升模型的性能。

YuLan-Mini的退火训练使用了800亿个高质量样本，相当于整个训练数据量的8%。虽然数据量看起来不大，但这个阶段的作用却至关重要，就像是雕刻师对作品进行最后的精雕细琢，每一刀都要格外谨慎和精确。

在退火阶段，学习率的调整策略发生了重要变化。研究团队采用了1-sqrt退火函数，这种函数能够让学习率从训练阶段的峰值平滑地下降到一个很小的值。这个过程就像是让一辆高速行驶的汽车逐渐减速停靠，既要保持稳定，又要确保能够精确到达目标位置。

具体来说，学习率从0.01逐渐降低到5.22×10^-5，整个过程持续18802步，然后在最后的772步中保持这个较低的学习率不变。这种设计让模型有充分的时间来微调参数，同时避免了过度调整导致的性能退化。

退火阶段的另一个重要改变是上下文长度的扩展。通过将RoPE的基频从10000调整到490000，模型的上下文处理能力从4096个标记扩展到28672个标记，增长了近7倍。这就像是给望远镜更换了更强大的镜头，能够看到更远、更详细的景象。

为了实现这种上下文扩展，研究团队采用了调整基频（ABF）的方法。这种方法通过修改位置编码的参数，让模型能够理解和处理更长的文本序列，而不需要从零开始重新训练。这个过程需要在长文本训练中进行，让模型逐渐适应新的上下文长度。

退火阶段的数据选择极为严格，研究团队采用了多种策略来确保数据质量。首先，他们增加了各种高质量数据源的比例，特别是合成推理数据。其次，他们使用了基于梯度的数据选择方法，这种方法能够识别出对模型性能提升最有帮助的样本。

数据组成方面，退火阶段包含了646.5亿的混合预训练数据，作为基础内容。数学相关数据占了重要比重，其中包括3.07亿的链式思维数据、6100万的长链式思维数据、1000万的形式数学数据，以及14.2亿的精选数学数据。代码方面有66.6亿的链式思维数据和23.9亿的精选代码数据。科学领域也有相应的配置，包括400万的长链式思维数据和10.6亿的精选科学数据。

特别值得注意的是，退火阶段大幅增加了指令数据的比例，达到19.19%。这些指令数据包括代码相关指令约11%、数学相关指令约7%、通用指令约1%。这种调整让模型更好地学会如何响应用户的指令和问题。

长上下文数据在退火阶段也占据了重要地位，约占14.21%的比例。研究团队特别选择了书籍内容和连接的GitHub代码文本作为长上下文数据，这些内容具有天然的长程依赖关系，能够帮助模型学会处理复杂的上下文信息。

为了在增强长文本能力的同时保持短文本性能，团队还采用了掩码交叉文档注意力机制。这种技术防止注意力跨越不同文档，确保模型在处理长文本时不会影响对短文本的理解能力。

数据打包策略也进行了特殊设计。对于预训练数据，系统会直接进行拼接；但对于指令数据，如果被分割到两个序列中，系统会对前一个序列的剩余部分进行填充，确保指令数据的完整性。这种处理方式就像是在包装易碎品时，对每件物品都进行专门的保护措施。

退火阶段结束时，研究团队还采用了检查点合并策略，将最后几个检查点进行平均，产生最终的预训练模型。这种做法虽然可能会在某些特定能力上有轻微下降，但能够获得更加均衡和鲁棒的整体性能。

通过这样精心设计的退火过程，YuLan-Mini在保持原有优势的基础上，进一步提升了数学推理、代码生成和长文本理解等关键能力，最终成为一个性能全面、能力均衡的语言模型。

六、性能表现：小模型的大能耐

经过精心训练的YuLan-Mini在各项测试中展现出了令人印象深刻的性能表现，这就像是一位体重较轻的运动员在各项比赛中都能与重量级选手一较高下。通过与同规模和更大规模模型的全面对比，YuLan-Mini证明了"小而精"设计理念的有效性。

在数学推理能力方面，YuLan-Mini表现尤为突出。在MATH-500基准测试中，28K版本的模型达到了37.80分的成绩，在GSM8K测试中获得了68.46分。这些成绩不仅在同规模模型中名列前茅，甚至能够与一些更大的模型相媲美。这就像是一位轻量级拳手在重量级比赛中也能打出漂亮的组合拳。

代码生成能力同样表现出色，在HumanEval基准中达到64.00分，在MBPP测试中获得65.90分。这些成绩说明YuLan-Mini不仅能够理解编程问题，还能生成高质量的代码解决方案。考虑到模型的规模限制，这样的表现可以说是相当优异的。

在通用语言理解方面，YuLan-Mini在MMLU测试中取得了49.10分的成绩。虽然这个分数看起来可能不如一些专门优化的大模型，但考虑到YuLan-Mini只有24亿参数，这个表现已经相当不错。在中文理解能力方面，模型在CEval测试中获得48.23分，显示出良好的多语言处理能力。

长文本理解能力的测试结果显示了模型在上下文扩展方面的成功。在RULER基准测试中，28K版本的YuLan-Mini取得了51.48分的成绩。虽然由于计算资源限制，模型的上下文长度只扩展到28K，但这已经足以处理大多数实际应用场景的需求。

特别值得关注的是训练效率方面的表现。YuLan-Mini仅使用1.08万亿训练样本就达到了这样的性能水平，而许多同行模型需要消耗18万亿甚至更多的训练数据。这种数据效率的提升就像是用一半的油耗跑出了同样的里程，体现了整个训练流程优化的价值。

从计算效率的角度来看，YuLan-Mini的FLOPs（浮点运算次数）相比其他模型有明显优势。通过使用Kaplan等人提出的缩放律公式计算，YuLan-Mini在达到相似性能的情况下，所需的计算资源显著少于同类模型。这种效率优势在实际部署和应用中具有重要意义。

在与工业界主流模型的对比中，YuLan-Mini显示出了强劲的竞争力。虽然在某些单项测试中可能不是最高分，但在综合性能和训练效率的平衡上，YuLan-Mini展现出了独特的优势。这就像是一位全能运动员，虽然在单项上可能不是世界纪录保持者，但在综合得分上能够获得很好的名次。

模型在不同版本之间的性能对比也很有启发性。4K版本在短文本任务上表现稳定，而28K版本在保持短文本性能的同时，显著提升了长文本处理能力。这种渐进式的能力扩展证明了训练策略的有效性。

训练过程中的性能监控数据显示，模型的各项能力发展比较均衡。数学能力、代码能力和通用理解能力都呈现出稳步提升的趋势，没有出现某项能力过度发展而其他能力滞后的情况。这种均衡发展对于实际应用来说非常重要。

研究团队还公布了详细的评估设置和结果，包括不同测试场景下的表现对比。他们采用了多种不同的提示策略，包括零样本、少样本和链式思维等，确保评估结果的全面性和可靠性。

总的来说，YuLan-Mini的性能表现证明了在有限资源约束下，通过精心的设计和优化，完全可以训练出具有强竞争力的语言模型。这为资源受限的研究机构和企业提供了一个可行的技术路径，也为整个行业探索更高效的模型训练方法提供了有价值的参考。

七、开源贡献：让技术惠及更多人

YuLan-Mini项目最令人钦佩的一点是研究团队的开放态度，他们不仅公开了模型本身，还详细披露了整个训练过程的技术细节。这种做法就像是一位经验丰富的工匠毫无保留地传授自己的技艺，让整个行业都能从中受益。

研究团队公开的内容包括了模型的完整架构参数、训练数据的详细组成、每个训练阶段的具体配置，甚至连遇到的技术难题和解决方案都进行了详细记录。这种透明度在当前的人工智能领域并不常见，许多公司和机构往往会将这些关键技术作为商业秘密加以保护。

为了方便其他研究者复现实验结果，团队提供了27个训练阶段的详细数据配比信息。每个阶段使用了哪些数据源、各占多少比例、是如何进行数据处理的，这些信息都被完整地记录和公开。这就像是提供了一份详细的菜谱，包括每种食材的用量、处理方法和烹饪时间。

在数据处理方面，研究团队不仅公开了使用的开源数据集列表，还详细说明了数据清洗、去重、质量筛选的具体方法。他们使用的合成数据生成方法、提示词模板、质量评估标准等技术细节也都进行了公开。这种程度的开放让其他研究者能够在相同的基础上进行改进和创新。

训练稳定性问题的研究成果也被完全公开。团队不仅分享了成功的解决方案，还详细分析了各种失败的尝试和经验教训。他们公开了大量的实验数据和分析图表，让其他研究者能够深入理解训练不稳定问题的根本原因和有效对策。

技术实现方面的细节也得到了充分的分享。从模型架构的具体参数设置，到训练基础设施的配置，再到各种优化技术的实现方法，研究团队都提供了详细的文档和代码。这种程度的技术分享让其他研究者能够直接使用和改进这些方法。

为了降低复现门槛，团队还提供了不同规模的代理模型实验结果。这些小规模实验能够帮助资源有限的研究者快速验证方法的有效性，然后再决定是否投入更多资源进行大规模实验。这种设计考虑体现了团队对实际应用场景的深入理解。

评估方法和基准测试的详细信息也被公开，包括使用的评估框架、具体的测试设置、结果分析方法等。这种透明度有助于确保实验结果的可重复性和可比较性，这对于科学研究来说极其重要。

研究团队还特别关注了工程实现的可操作性。他们提供的代码和配置文件都经过了精心整理，包含了详细的注释和使用说明。这种考虑让其他研究者能够更容易地理解和使用这些技术成果。

项目的开源不仅仅是技术层面的分享，更体现了一种学术精神和社会责任。在人工智能技术快速发展的今天，技术的民主化和普及变得越来越重要。YuLan-Mini项目的开源贡献为那些没有巨大计算资源的研究机构、初创企业和个人研究者提供了宝贵的参考和起点。

这种开放态度也推动了整个领域的技术进步。当技术细节被公开分享时，更多的研究者能够在此基础上进行改进和创新，从而加速整个领域的发展。这就像是科学研究中的同行评议制度，通过开放透明的交流来推动知识的进步。

研究团队表示，他们将继续维护和更新项目的开源内容，包括可能的模型改进、新的实验结果和技术优化。这种持续的维护承诺确保了项目的长期价值和可用性。

通过这样全方位的开源贡献，YuLan-Mini项目不仅仅是一个成功的技术研究案例，更成为了推动整个人工智能领域开放协作和技术普及的重要力量。

八、技术挑战与解决方案：攻坚克难的创新历程

在开发YuLan-Mini的过程中，研究团队遇到了许多技术挑战，每一个问题的解决都需要深入的研究和创新性的思考。这些挑战就像是攀登高峰时遇到的各种险阻，需要团队运用智慧和毅力来逐一克服。

首先面临的重大挑战是如何在有限的参数预算内最大化模型性能。传统的做法往往是简单地增加模型规模，但这种方法对计算资源的需求极高。研究团队选择了"精工细作"的路线，通过优化每一个设计细节来提升效率。他们深入研究了不同架构配置的性能影响，最终选择了高瘦型的网络结构，用56层相对较深的网络来换取更强的表达能力。

第二个重大挑战是训练稳定性问题。在使用较大学习率训练小模型时，经常会出现梯度爆炸或训练发散的情况。这个问题就像是驾驶一辆高性能跑车，需要在保持高速的同时确保不会失控。团队通过大量的实验发现了隐藏状态方差增长的规律，并基于这个发现开发了一套综合的稳定化方案。

训练数据的质量控制是另一个关键挑战。互联网上的数据质量参差不齐，如何从海量数据中筛选出真正有价值的内容，是一个既需要技术手段又需要领域知识的复杂问题。研究团队开发了多层次的数据筛选流程，结合了自动化工具和专业判断，确保每一条进入训练的数据都符合质量要求。

合成数据的生成是项目中的一个创新亮点，同时也带来了新的技术挑战。如何生成既多样化又高质量的合成数据，如何确保这些数据能够真正提升模型性能而不是引入噪声，这些都需要精心设计和反复实验。团队开发了多种不同类型的合成数据生成方法，包括数学推理、代码生成、科学问答等，每种方法都经过了严格的质量验证。

上下文长度的扩展也面临着技术难题。传统的位置编码方法在处理超长序列时会遇到性能下降的问题，而重新训练整个模型又不现实。研究团队采用了调整基频的方法，通过修改RoPE参数来实现上下文扩展，这种方法既高效又有效，但需要精确的参数调整和充分的验证。

计算资源的优化利用是贯穿整个项目的挑战。如何在有限的GPU集群上高效地训练如此规模的模型，需要在算法优化、系统配置、资源调度等多个层面进行协调。团队采用了多种优化技术，包括混合精度训练、梯度累积、模型并行等，最终实现了51.57%的模型FLOPs利用率。

评估和验证也带来了独特的挑战。如何公平地比较不同规模和架构的模型，如何设计全面而有效的测试基准，如何确保实验结果的可重复性，这些都需要精心的设计和严格的执行。团队采用了多种不同的评估设置，包括零样本、少样本、链式思维等，并对所有实验进行了详细的记录和分析。

在解决这些挑战的过程中，研究团队展现出了强大的创新能力和执行力。他们不仅借鉴了现有的先进方法，更重要的是针对具体问题开发了创新的解决方案。比如在训练稳定性方面，他们提出的基于隐藏状态监控的预警机制就是一个原创性的贡献。

团队还特别注重实验的严谨性和结果的可靠性。他们进行了大量的对比实验和消融研究，确保每个技术决策都有充分的实验证据支持。这种科学严谨的态度不仅保证了研究结果的质量，也为其他研究者提供了宝贵的经验参考。

项目管理和团队协作也是成功的关键因素。在如此复杂的技术项目中，需要协调数据处理、模型训练、系统优化、实验评估等多个方面的工作。团队建立了有效的工作流程和沟通机制，确保各个环节能够协调配合，最终实现了项目目标。

通过克服这些挑战，YuLan-Mini项目不仅成功开发出了高性能的语言模型，更为整个领域积累了宝贵的技术经验和方法论。这些经验对于后续的研究工作具有重要的指导意义。

九、未来展望：小模型的大未来

YuLan-Mini项目的成功不仅仅是一个技术成就，更重要的是它为人工智能领域的未来发展指出了一个新的方向。这个项目证明了在资源约束的条件下，通过精心的设计和优化，完全可以开发出具有强竞争力的人工智能系统。

从技术发展的角度来看，YuLan-Mini开创了一种新的模型设计理念。传统的做法往往是通过增加模型规模来提升性能，这种"大力出奇迹"的方法虽然有效，但对计算资源的需求极高，限制了技术的普及和应用。YuLan-Mini证明了"小而精"的设计同样可以取得优异的性能，这为整个行业提供了一个新的思路。

这种设计理念的意义不仅在于节省计算资源，更在于让更多的机构和个人能够参与到人工智能技术的发展中来。当训练一个高性能语言模型不再需要巨大的计算集群和海量的数据时，更多的研究者就能够在这个领域进行创新和探索。这种技术民主化的趋势对整个行业的长远发展具有重要意义。

从实际应用的角度来看，小模型有着独特的优势。它们部署成本低、推理速度快、能耗较少，特别适合在边缘设备和资源受限的环境中使用。随着物联网、移动设备和边缘计算的快速发展，这种优势将变得越来越重要。YuLan-Mini为这些应用场景提供了技术可行性的证明。

数据效率的提升是另一个重要的发展方向。YuLan-Mini仅使用1.08万亿训练样本就达到了与使用更多数据的模型相媲美的性能，这种数据效率的提升具有重要的现实意义。在数据获取成本越来越高、数据隐私保护要求越来越严格的今天，如何更高效地利用有限的数据资源成为一个关键问题。

训练方法的创新也为未来发展提供了启示。YuLan-Mini项目中使用的数据调度、合成数据生成、训练稳定性优化等方法，都可以应用到其他模型的训练中。这些方法论的贡献可能比单个模型的成功更有价值，因为它们可以帮助整个领域提升技术水平。

开源文化的推广是项目的另一个重要贡献。在商业竞争日益激烈的人工智能领域，愿意完全开放技术细节的研究团队并不多见。YuLan-Mini项目的开源不仅让其他研究者受益，也推动了整个领域向更加开放、合作的方向发展。

从教育和人才培养的角度来看，YuLan-Mini项目也具有重要意义。它为学生和初学者提供了一个完整的学习案例，从数据处理到模型训练，从技术实现到性能评估，每个环节都有详细的文档和代码。这种完整性让它成为了一个极好的教学资源。

技术标准化和规范化也是未来发展的重要方向。YuLan-Mini项目在实验设计、性能评估、结果报告等方面都体现了较高的科学标准，这种严谨性为建立行业标准提供了参考。随着更多类似项目的出现，整个领域的研究质量和可信度都会得到提升。

当然，小模型的发展也面临着一些挑战。如何在保持模型紧凑的同时进一步提升性能，如何处理更加复杂和多样化的任务需求，如何与大模型形成良性的生态共存，这些都是需要持续探索的问题。

研究团队已经表示将继续在这个方向上进行深入研究，包括开发YuLan-Mini的指令微调版本，探索在其他架构和训练方法上的应用，以及针对特定领域的专业化版本。这些后续工作将进一步验证和扩展项目的技术贡献。

从更广阔的视角来看，YuLan-Mini项目体现了科技发展的一个重要趋势：从简单的规模扩张向精细化优化转变。这种转变不仅在人工智能领域有所体现，在其他技术领域也有类似的趋势。它反映了技术发展从粗放式向集约式转变的必然过程。

总的来说，YuLan-Mini项目为人工智能领域的未来发展提供了新的思路和方向。它证明了小模型同样可以有大作为，资源效率和性能表现可以同时兼顾。这种技术路径的成功将鼓励更多研究者在这个方向上进行探索，推动整个领域向更加高效、普惠、可持续的方向发展。

说到底，YuLan-Mini项目的真正价值不仅在于它创造了一个优秀的语言模型，更在于它展示了一种新的可能性：在人工智能技术快速发展的时代，我们不必被资源限制所束缚，而可以通过创新思维和精心设计来实现技术突破。这种精神和方法论对于推动整个行业的健康发展具有深远的意义。无论是对于那些希望在人工智能领域有所作为的研究者，还是对于想要应用这些技术的企业和组织来说，YuLan-Mini都提供了一个宝贵的参考案例和技术基础。随着更多类似项目的出现和技术的不断完善，我们有理由相信，人工智能技术将变得更加普惠和实用，真正造福于人类社会的发展。

Q&A

Q1：YuLan-Mini只有2.4B参数，为什么能与大模型竞争？

A：YuLan-Mini采用了"精工细作"的设计理念，通过精心的数据筛选、优化的模型架构和创新的训练方法来最大化性能。就像一位技艺精湛的工匠用简单工具制作精美艺术品，YuLan-Mini用高瘦型的56层网络结构、精选的1.08万亿高质量训练样本，以及专门的稳定化训练技术，在有限参数下实现了与更大模型相媲美的表现。

Q2：YuLan-Mini的数据效率为什么这么高？

A：研究团队开发了完整的数据处理流程，包括多层次筛选、去重处理、质量评分和主题导向的文本召回。他们还大量使用合成数据，生成各种推理样本来增强模型能力。整个过程就像精选食材制作料理，每一条数据都经过严格把关，确保质量而非数量。相比其他模型需要18万亿样本，YuLan-Mini仅用1.08万亿就达到同等效果。

Q3：普通研究机构能复现YuLan-Mini吗？

A：完全可以。研究团队公开了所有技术细节，包括27个训练阶段的数据配比、完整的代码实现、训练基础设施配置，甚至提供了小规模的代理模型实验方法。这种开放程度就像提供了详细菜谱，其他研究者可以根据自己的资源情况进行调整和优化。团队特别考虑了资源受限场景，让大学实验室也能参与这类研究。

来源:https://www.163.com/dy/article/KNOKVDKJ0511DTVV.html

上一篇：港大研发纯视觉AI，实现人机界面类人化操作

下一篇： 360推出OpenClaw：解决养龙虾安全部署风险的实战指南