数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

李开复零一万物Yi大模型技术报告核心解读

AI热点日报时间：2026-05-31

热点解读

2024年3月，零一万物开源Yi-9B并发布技术报告，披露预训练至微调全栈细节。数据经层层过滤获3 1万亿高质量token，模型基于LLaMA架构，采用GQA、SwiGLU及RoPE支持200K上下文。微调用少于10K高质量对话对。深度扩展后Yi-9B在代码、数学等基准测试中表现优异。

```html

2024年3月6日，零一万物正式开源了Yi-9B模型，并向公众开放使用。在同尺寸模型中，其综合表现极为突出——与Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B等竞品相比，在代码生成、数学推理、常识判断和阅读理解等硬核领域几乎全面领先，优势显著。

李开复零一万物Yi大模型技术报告要点精读

次日（3月7日），零一万物发布了Yi大模型技术报告，题为“Yi: Open Foundation Models by 01.AI”。该报告详细披露了从预训练、微调到推理的全栈技术细节。以下将重点拆解其中最值得关注的内容。

一、模型预训练

1.1 数据处理

Yi模型系列在预训练阶段采用了一套极其精细的数据清洗流程，可以概括为“层层过滤、优中选优”。
具体步骤如下：

数据混合：主要来源于Common Crawl的网络文档，经过精心设计的级联管道处理，最终获得3.1万亿高质量的中英文token，数据来源多样，充分保证了覆盖面。
启发式规则过滤器：用于清除明显低质的文本。过滤标准包括URL、域名、单词黑名单、乱码文本，以及文档长度、特殊符号比例、短行或连续行比例、重复n-gram等。规则阈值基于大规模样本的统计分析来确定。
学习型过滤器：为处理不易察觉的“高仿低质”内容，集成了一套学习型评分器，包括困惑度评分器、质量评分器、安全评分器、文档一致性评分器。这一步骤尤其针对中文内容——Common Crawl中中文不适当内容比例偏高，需要进行特别过滤。
基于聚类的过滤器：通过无监督语义聚类将网页文档分组，从而有效识别相似语义特征的文档。聚类后标注质量标签，为数据混合策略提供参考。
去重：过滤后实施全面的去重流程——文档级别采用MinHash，子文档级别采用精确匹配。最后利用主题模型对网页文档分类，对广告等低价值内容进行下采样，确保信息密度。

这一套流程下来，最终预训练数据的分布已经清晰展示在报告中（详见原文图表）。可以说，每个环节都致力于实现“高质量”与“高信息密度”。

1.2 Tokenization

Yi模型使用SentencePiece框架中的BPE（字节对编码），词汇表大小为64,000，在计算效率和词汇理解之间取得平衡。数字被分割成单个数字，便于模型更好地理解数值数据；罕见字符则回退到Unicode字节编码，以保证容错性。

1.3 模型架构

Yi模型基于LLaMA架构的经典Decoder-only Transformer，但进行了几项关键修改：

注意力机制：6B和34B版本均采用Grouped-Query Attention（GQA）。它将查询头分成多个组，每组共享一个键和值头，从而降低训练和推理成本，且未观察到性能下降。
激活函数：采用SwiGLU，并将激活大小从4h缩减至8/3h（h为隐藏层大小），以此补偿GQA带来的参数减少，使整体参数量与现有7B/34B模型相当。
位置嵌入与长上下文：使用RoPE（旋转位置编码），并调整基础频率（RoPE ABF），以支持高达200K的上下文窗口。为适应长序列，预训练数据中有意上采样长序列（主要来自书籍），仅需1-2B token即可让模型在4K~200K长度上收敛到低损失，轻量微调即可获得近乎完美的长上下文检索能力。

一个值得注意的细节：扩展上下文到200K完全是工程实现层面的优化——没有改动模型架构（如无需稀疏注意力或滑动窗口），而是依靠计算通信重叠、序列并行和通信压缩等技术，使模型在200K长度下依然使用全注意力。

二、模型微调

微调阶段，Yi团队强调“数据质量优于数量”，与传统的数据密集型方案（如FLAN、UltraChat）形成鲜明对比。他们使用少于10K的多轮指令-响应对话对，每个实例都经过多次迭代和用户反馈精心优化。具体策略包括：

数据预处理：微调数据集由少量但高质量的对话对组成，经过人工注释和用户反馈持续打磨。
多样性混合：数据集涵盖问答、创意写作、对话、推理、数学、编码、安全性、双语能力等多个领域，确保模型覆盖不同能力方向。
指令标记系统：受InsTag启发，设计了一个以多样性为中心的采样算法，平衡不同标签下的指令分布，提升跨任务鲁棒性。
数据比例优化：采用近似网格搜索确定各能力方向的数据混合比例（在{1, 1/2, 1/4, …, 1/64}中实验），灵感来源于Dong等人的工作。
ChatML格式：采用结构化格式，让模型能区分系统配置、用户输入和助手响应，对最终性能产生积极影响。
训练方法：仅对响应部分计算损失（系统和用户指令不参与），使用AdamW优化器，设置特定的学习率、权重衰减和梯度裁剪阈值，训练步数300，并加入NEFTune噪声调整。

三、基础框架

支撑Yi全栈开发（从预训练到微调再到推理）的基础框架，包含几项关键技术决策：

计算资源管理：构建了一个高效的多云任务调度算法，管理不同优先级的预训练、SFT和RLHF任务。同时开发了高性能内部训练框架，可根据GPU可用性自动弹性扩展到不同节点大小。
性能与成本效率：内存和通信是两大瓶颈。采用ZeRO-1跨数据并行分割优化器状态；结合张量并行和管道并行；使用内核融合（如Flash Attention）减少冗余全局内存访问；还实现了拓扑感知资源分配，最小化交换机层间的通信开销。
微调框架：支持DPO、PPO等多模型协调的训练作业，构建了多模型调度框架，可在单个作业中支持不同LLM的多种后端。
快速高效推理：主要依靠量化（4位模型量化+8位KV缓存量化，MMLU/CMMLU准确率下降不到1%）、动态批处理和Paged Attention技术，大幅提升解码速度和内存使用效率。
长上下文窗口支持：通过计算-通信重叠、序列并行和通信压缩，支持200K上下文长度的持续预训练和微调。再次强调：完全基于工程优化，不改变模型架构。

四、Yi能力扩展

本部分讨论如何通过后续训练进一步扩展模型能力，包括长上下文、视觉理解，以及通过“深度上扩展”提升模型性能。

4.1 长上下文建模

实现200K上下文的方法非常轻量：先进行持续预训练“解锁”模型潜力（在针堆测试中验证），再进行微调以适应人类指令和偏好。基本假设是基础模型已经具备在200K上下文中利用信息的潜力，持续预训练只是将其激发出来。

4.2 视觉-语言模型

基于Yi-6B-Chat和Yi-34B-Chat，构建了Yi-VL视觉语言模型，架构包括视觉Transformer（ViT）、投影模块和LLM。经过三阶段训练，在双语多模态理解和生成上表现优异。

4.3 深度上扩展

随着计算预算、模型大小和数据规模增加，性能可预测性也随之提高。他们提出了一种新方法：通过阶段性训练动态调整数据和模型规模之间的资源分配。具体而言，将Yi-6B（32层）扩展到Yi-9B（48层）时，采用复制原始模型中间层的方式——先评估每层输入输出的余弦相似性，选择相似度高的层进行复制，从而在不额外预训练的情况下增加深度。持续训练过程中保持恒定学习率，当损失停滞时逐步增加批量大小。

结果验证了这条路线的高效性：Yi-9B在多项基准测试中表现优异，尤其在代码、数学、常识推理和阅读理解上拿下多个第一。可以说，数据特性与模型规模之间的良性互动，是这次升级成功的关键。

技术报告原文链接：
arXiv: https://arxiv.org/pdf/2403.04652.pdf
HuggingFace: https://huggingface.co/01-ai

```

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：李开复零一万物Yi大模型技术报告核心解读要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/qianyanjishu/777.html

ai 人工智能

上一篇：三A衰退说法仅半对，估值差距蕴含交易机会

下一篇：戴尔股价飙升32%有望创史上最佳人工智能服务器营收猛增

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。