李开复零一万物Yi大模型技术报告核心解读
2024年3月,零一万物开源Yi-9B并发布技术报告,披露预训练至微调全栈细节。数据经层层过滤获3 1万亿高质量token,模型基于LLaMA架构,采用GQA、SwiGLU及RoPE支持200K上下文。微调用少于10K高质量对话对。深度扩展后Yi-9B在代码、数学等基准测试中表现优异。
2024年3月6日,零一万物正式开源了Yi-9B模型,并向公众开放使用。在同尺寸模型中,其综合表现极为突出——与Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B等竞品相比,在代码生成、数学推理、常识判断和阅读理解等硬核领域几乎全面领先,优势显著。

次日(3月7日),零一万物发布了Yi大模型技术报告,题为“Yi: Open Foundation Models by 01.AI”。该报告详细披露了从预训练、微调到推理的全栈技术细节。以下将重点拆解其中最值得关注的内容。
一、模型预训练
1.1 数据处理
Yi模型系列在预训练阶段采用了一套极其精细的数据清洗流程,可以概括为“层层过滤、优中选优”。
具体步骤如下:
数据混合:主要来源于Common Crawl的网络文档,经过精心设计的级联管道处理,最终获得3.1万亿高质量的中英文token,数据来源多样,充分保证了覆盖面。
启发式规则过滤器:用于清除明显低质的文本。过滤标准包括URL、域名、单词黑名单、乱码文本,以及文档长度、特殊符号比例、短行或连续行比例、重复n-gram等。规则阈值基于大规模样本的统计分析来确定。
学习型过滤器:为处理不易察觉的“高仿低质”内容,集成了一套学习型评分器,包括困惑度评分器、质量评分器、安全评分器、文档一致性评分器。这一步骤尤其针对中文内容——Common Crawl中中文不适当内容比例偏高,需要进行特别过滤。
基于聚类的过滤器:通过无监督语义聚类将网页文档分组,从而有效识别相似语义特征的文档。聚类后标注质量标签,为数据混合策略提供参考。
去重:过滤后实施全面的去重流程——文档级别采用MinHash,子文档级别采用精确匹配。最后利用主题模型对网页文档分类,对广告等低价值内容进行下采样,确保信息密度。
这一套流程下来,最终预训练数据的分布已经清晰展示在报告中(详见原文图表)。可以说,每个环节都致力于实现“高质量”与“高信息密度”。
1.2 Tokenization
Yi模型使用SentencePiece框架中的BPE(字节对编码),词汇表大小为64,000,在计算效率和词汇理解之间取得平衡。数字被分割成单个数字,便于模型更好地理解数值数据;罕见字符则回退到Unicode字节编码,以保证容错性。
1.3 模型架构
Yi模型基于LLaMA架构的经典Decoder-only Transformer,但进行了几项关键修改:
注意力机制:6B和34B版本均采用Grouped-Query Attention(GQA)。它将查询头分成多个组,每组共享一个键和值头,从而降低训练和推理成本,且未观察到性能下降。
激活函数:采用SwiGLU,并将激活大小从4h缩减至8/3h(h为隐藏层大小),以此补偿GQA带来的参数减少,使整体参数量与现有7B/34B模型相当。
位置嵌入与长上下文:使用RoPE(旋转位置编码),并调整基础频率(RoPE ABF),以支持高达200K的上下文窗口。为适应长序列,预训练数据中有意上采样长序列(主要来自书籍),仅需1-2B token即可让模型在4K~200K长度上收敛到低损失,轻量微调即可获得近乎完美的长上下文检索能力。
一个值得注意的细节:扩展上下文到200K完全是工程实现层面的优化——没有改动模型架构(如无需稀疏注意力或滑动窗口),而是依靠计算通信重叠、序列并行和通信压缩等技术,使模型在200K长度下依然使用全注意力。
二、模型微调
微调阶段,Yi团队强调“数据质量优于数量”,与传统的数据密集型方案(如FLAN、UltraChat)形成鲜明对比。他们使用少于10K的多轮指令-响应对话对,每个实例都经过多次迭代和用户反馈精心优化。具体策略包括:
数据预处理:微调数据集由少量但高质量的对话对组成,经过人工注释和用户反馈持续打磨。
多样性混合:数据集涵盖问答、创意写作、对话、推理、数学、编码、安全性、双语能力等多个领域,确保模型覆盖不同能力方向。
指令标记系统:受InsTag启发,设计了一个以多样性为中心的采样算法,平衡不同标签下的指令分布,提升跨任务鲁棒性。
数据比例优化:采用近似网格搜索确定各能力方向的数据混合比例(在{1, 1/2, 1/4, …, 1/64}中实验),灵感来源于Dong等人的工作。
ChatML格式:采用结构化格式,让模型能区分系统配置、用户输入和助手响应,对最终性能产生积极影响。
训练方法:仅对响应部分计算损失(系统和用户指令不参与),使用AdamW优化器,设置特定的学习率、权重衰减和梯度裁剪阈值,训练步数300,并加入NEFTune噪声调整。
三、基础框架
支撑Yi全栈开发(从预训练到微调再到推理)的基础框架,包含几项关键技术决策:
计算资源管理:构建了一个高效的多云任务调度算法,管理不同优先级的预训练、SFT和RLHF任务。同时开发了高性能内部训练框架,可根据GPU可用性自动弹性扩展到不同节点大小。
性能与成本效率:内存和通信是两大瓶颈。采用ZeRO-1跨数据并行分割优化器状态;结合张量并行和管道并行;使用内核融合(如Flash Attention)减少冗余全局内存访问;还实现了拓扑感知资源分配,最小化交换机层间的通信开销。
微调框架:支持DPO、PPO等多模型协调的训练作业,构建了多模型调度框架,可在单个作业中支持不同LLM的多种后端。
快速高效推理:主要依靠量化(4位模型量化+8位KV缓存量化,MMLU/CMMLU准确率下降不到1%)、动态批处理和Paged Attention技术,大幅提升解码速度和内存使用效率。
长上下文窗口支持:通过计算-通信重叠、序列并行和通信压缩,支持200K上下文长度的持续预训练和微调。再次强调:完全基于工程优化,不改变模型架构。
四、Yi能力扩展
本部分讨论如何通过后续训练进一步扩展模型能力,包括长上下文、视觉理解,以及通过“深度上扩展”提升模型性能。
4.1 长上下文建模
实现200K上下文的方法非常轻量:先进行持续预训练“解锁”模型潜力(在针堆测试中验证),再进行微调以适应人类指令和偏好。基本假设是基础模型已经具备在200K上下文中利用信息的潜力,持续预训练只是将其激发出来。
4.2 视觉-语言模型
基于Yi-6B-Chat和Yi-34B-Chat,构建了Yi-VL视觉语言模型,架构包括视觉Transformer(ViT)、投影模块和LLM。经过三阶段训练,在双语多模态理解和生成上表现优异。
4.3 深度上扩展
随着计算预算、模型大小和数据规模增加,性能可预测性也随之提高。他们提出了一种新方法:通过阶段性训练动态调整数据和模型规模之间的资源分配。具体而言,将Yi-6B(32层)扩展到Yi-9B(48层)时,采用复制原始模型中间层的方式——先评估每层输入输出的余弦相似性,选择相似度高的层进行复制,从而在不额外预训练的情况下增加深度。持续训练过程中保持恒定学习率,当损失停滞时逐步增加批量大小。
结果验证了这条路线的高效性:Yi-9B在多项基准测试中表现优异,尤其在代码、数学、常识推理和阅读理解上拿下多个第一。可以说,数据特性与模型规模之间的良性互动,是这次升级成功的关键。
技术报告原文链接:
arXiv: https://arxiv.org/pdf/2403.04652.pdf
HuggingFace: https://huggingface.co/01-ai
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:李开复零一万物Yi大模型技术报告核心解读要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点大模型微调常用的P-tuning与LoRA均属参数高效微调方法。P-tuning通过优化输入提示词嵌入向量引导模型,不改动模型参数;LoRA则在模型中添加低秩更新模块,仅优化新增参数。两者各具优势,适用于不同任务场景。
生成美妆产品图时,参考样例不可或缺。非常规结构、易混淆材质及固定品牌视觉需上传参考图;标准包装且提示词完成四重锁定可免用。参考图应选高清实物照、原始详情图或线稿图以确保成图质量。
以下是根据您的要求,对原文进行“人性化重写”后的版本。已严格遵循所有规则:保留了原文的核心信息、逻辑结构、章节标题和所有图片,清除了所有第三方推广和引流信息,并将第一人称的使用控制在极低限度内,使文章读起来像是一位资深专家的深度分享,兼具专业性和口语化的生动节奏。 *** 这个需求的起点其实很朴素。
让Poe写小红书合集笔记不生硬的关键在于提供真实人设和具体场景,而非直接命令。需锁定使用背景、用口语化锚点替换功能指令,并植入节奏断点如短段落、禁用正式表达,才能产出自然、有呼吸感的笔记。
- 日榜
- 周榜
- 月榜
热点快看
