数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

OpenCSG国内首发开源中文版FineWeb-Edu数据集

AI热点日报时间：2026-05-30

热点解读

人工智能在自然语言处理（NLP）领域的发展速度令人瞩目，几乎覆盖了数字技术的各个角落，从智能客服与内容生成，到语音识别和翻译工具。在这一浪潮中，预训练模型成为核心驱动力，通过在海量数据中学习，掌握了丰富的语言知识和语义表达，为各类下游任务提供了强有力的支撑。然而，一个关键挑战在于：预训练模型的质量

人工智能在自然语言处理（NLP）领域的发展速度令人瞩目，几乎覆盖了数字技术的各个角落，从智能客服与内容生成，到语音识别和翻译工具。在这一浪潮中，预训练模型成为核心驱动力，通过在海量数据中学习，掌握了丰富的语言知识和语义表达，为各类下游任务提供了强有力的支撑。

然而，一个关键挑战在于：预训练模型的质量很大程度上取决于其训练数据的来源。高质量的数据集能够帮助模型学习更为全面和准确的语言特征，从而在多种应用场景中表现出色。但遗憾的是，目前市场上大多数优质的预训练数据集主要集中在英文领域，专门针对中文的高质量数据集相对稀缺。尽管部分国内外的公司与研究机构已开始着手构建中文数据集，但这些资源不仅数量有限，质量也参差不齐，难以充分满足快速发展的中文NLP领域对高质量数据的需求。

正是为了解决这一痛点，OpenCSG算法团队正式启动了一项重要项目：中文版Fineweb Edu数据集。Huggingface的Fineweb Edu数据集已在国际NLP社区积累了一定知名度，其英文版本广泛应用于教育领域的自然语言处理任务。然而，针对中文环境，一直缺乏一个能够与之相媲美的高质量数据集。为弥补这一空白，OpenCSG团队将Fineweb Edu的构建经验引入中文领域，并结合中文的语言特点与教育实际进行了深度本地化优化。

此次发布的中文版Fineweb Edu数据集，不仅填补了中文预训练数据集的一个重要空白，也意味着OpenCSG开源社区在推动中文NLP技术发展方面实现了一个重要的里程碑。它为国内外研究人员提供了一个强大的工具，帮助他们在教育领域的NLP任务中取得更优异的研究成果。作为国内大模型开源社区的中坚力量，OpenCSG的核心使命是：将更多高质量的数据与模型资源带给全球的AI研究人员与开发者，持续推进AI技术的进步与广泛应用。

02 Huggingface Fineweb数据集介绍

Huggingface的FineWeb数据集于2024年5月31日首次发布，是一个面向大型语言模型预训练的大规模开源数据集，旨在促进NLP领域的研究。该数据集汇集了来自CommonCrawl的96个快照，总共包含超过15万亿个token，占用约44TB的磁盘空间。这些数据涵盖了从2013年至2024年的网页内容，通过精心设计的处理流程，FineWeb提供了丰富且多样化的高质量语料资源。

FineWeb的构建不仅依赖于庞大的数据规模，更体现在其精细的数据处理工艺上。在数据提取与清洗环节，Huggingface团队采用了先进的过滤策略来保障数据质量。例如，他们通过语言分类、URL过滤等方法去除非英语文本及不相关内容，并使用启发式过滤器删除过度重复的片段或未正确结束的文档。这些措施确保了数据集在保持规模的同时，具备高质量的内容。

为了进一步提升模型训练效果，FineWeb在去重处理中采用了MinHash模糊哈希技术。借助这一技术，团队能够高效移除数据中的重复部分，减轻模型对重复内容的过拟合，这对于提升模型在多样化文本理解上的表现至关重要。具体而言，FineWeb的数据去重包括逐个快照去重和全局去重，这种多层次策略确保了数据集的独特性和整体质量。

此外，FineWeb还推出了一个专门针对教育内容的子集——FineWeb-Edu。该子集通过Llama-3-70B-Instruct模型生成的合成注释进行分类和过滤，最终形成了一个1.3万亿token的教育类数据集，非常适合用于MMLU、ARC和OpenBookQA等教育领域的基准测试。

03 国内主流开源预训练数据集介绍

在构建高质量中文预训练模型的过程中，数据集的选择扮演着决定性作用。下面介绍几个与本次数据来源相关的国内主流开源预训练数据集——尽管它们提供了大量中文数据，但在质量和处理方法上各有差异，可以说良莠不齐。

1. CCI2-Data

为弥补中文高质量安全数据集的缺口，BAAI于2023年11月29日开源了CCI（Chinese Corpora Internet）数据集，并在此基础上进一步拓宽数据来源，采用更严格的数据清洗方法，完成了CCI 2.0数据集。CCI 2.0由来自可靠互联网来源的高质量数据组成，经过严格的清洗、去重和质量过滤处理。数据处理包括基于规则的关键词和垃圾信息过滤、基于模型的低质量内容筛选，以及数据集内部和之间的去重。最终发布的CCI 2.0语料库总容量为501GB，是一个高质量且安全可靠的中文语料库。

2. SkyPile-150B

SkyPile-150B是专为大规模语言模型预训练设计的综合性中文数据集，涵盖了来自公开中文互联网网页的海量数据。为确保质量，它经过严格的过滤、广泛的去重以及全面的敏感数据过滤处理，还使用了fastText和BERT等高级工具来筛除低质量内容。该数据集的公开部分包含约2.33亿个独特网页，每个网页平均超过1000个汉字，总token数约1500亿，纯文本数据容量达620GB。

3. IndustryCorpus

IndustryCorpus是BAAI发布的多行业中文预训练数据集，旨在提升行业模型的性能表现。该数据集总量约3.4TB，涵盖医疗、教育、法律、金融等18个重点行业。数据来自Wudao等多个大型数据集，经过22个行业特定数据处理操作的精细清洗和过滤，最终生成1TB高质量中文数据和2.4TB英文数据。由于其丰富的行业覆盖与严格的流程，特别适用于行业特定的语言模型训练。

4. Tele-AI

TeleChat-PTD是从电信星辰大模型TeleChat预训练语料中抽取的综合性大规模中文数据集，原始大小约1TB，压缩后为480GB，共包含189个文件。数据主要来源于网页、书籍和官方媒体等多种渠道，采用了规则和模型相结合的方式进行过滤和相似性去重。不过，要训练出更优秀的模型，还需要进行更高标准的数据处理。

5. MAP-CC

MAP-CC（Massive Appropriate Pretraining Chinese Corpus）是专为训练中文大模型设计的庞大数据集，包含800亿个Token，由多个子集组成，每个子集来自不同数据源，如博客、新闻、百科全书、学术论文、图书等。尽管已经进行了一系列去重和低质量数据筛除，但客观来说，数据质量仍然偏低，往往需要进一步筛选才能有效用于模型训练。

04 Chinese Fineweb Edu 数据集构建方法

数据集简介

Chinese Fineweb Edu数据集是一个精心构建的高质量中文预训练语料库，专为教育领域的NLP任务而设计。它通过严格的筛选与去重流程，借助少量数据训练评分模型进行评估，从海量原始数据中筛选出高价值的教育相关内容。最终，数据集包含约9000万条高质量中文文本，总大小约300GB。

数据集的下载地址现已开放，可在OpenCSG与Huggingface社区获取。

筛选方法

在数据筛选过程中，Chinese Fineweb Edu采用了与Fineweb-Edu类似的策略，重点聚焦教育价值与内容质量。具体实施步骤如下：

教育价值评估：首先使用csg-wukong-enterprise打分模型对样本的教育价值进行评判，依据内容的相关性与质量逐条给出0-5的评分。在初步筛选阶段，筛选出约10万条评分较高的数据。
打分模型训练：利用这10万条样本训练一个BERT模型，用于对更大规模的预训练数据集进行文本评分。这一步确保了模型能够准确识别出具有高教育价值的内容。
数据筛选：使用训练好的BERT模型对原始数据进行全面打分，仅保留得分大于4的数据。这一筛选过程显著提升了数据集的质量与相关性。
MinHash去重：为避免重复内容对模型训练产生负面影响，采用MinHash算法对所有数据进行了去重处理，确保数据独特性，同时保留多样化的教育内容。

原始数据来源

Chinese Fineweb Edu的原始数据来源广泛，涵盖了多个国内主流的中文预训练数据集。这些数据集在规模与领域覆盖面方面各有特点，但通过精细筛选和处理，最终为Chinese Fineweb Edu奠定了坚实的基础。主要数据源包括：

CCI2-Data：经过彻底清洗、去重与质量过滤的高质量中文语料。
SkyPile-150B：来自中国互联网的1500亿token大规模数据集，经过复杂过滤和去重。
IndustryCorpus：涵盖多个行业的中文预训练数据集，包含1TB中文数据。
Tele-AI：从电信星辰大模型TeleChat预训练语料中提取的高质量大规模中文数据集，约2.7亿条纯中文文本。
MAP-CC：规模庞大的中文预训练语料库，融合了多种来源的高质量数据。

这些多样化的数据来源不仅提供了丰富的内容基础，还通过不同领域与来源的数据融合，增强了数据集的广泛适用性和全面性。

打分模型

使用OpenCSG的csg-wukong-enterprise企业版大模型作为评分模型，通过精心设计的prompt，对每条预训练样本进行评分，分数范围0-5分共6个等级：

0分：网页未提供任何教育价值，内容与学习无关。
1分：网页提供了一些与教育主题相关的基本信息，但夹杂无关或非学术内容。
2分：网页涉及某些与教育相关的元素，但与教育标准不符，内容可能混杂或浅显。
3分：网页适合教育使用，介绍了与学校课程相关的关键概念，但内容可能不够全面或连贯。
4分：网页对不高于中学水平的教育目的高度相关，写作风格清晰一致，内容连贯且重点突出。
5分：摘录在教育价值上表现卓越，完全适合小学或中学教学，写作风格易于理解，对主题提供深刻而全面的见解。

记录了10万条数据及其得分，形成fineweb_edu_classifier_chinese_data。以得分为标签，训练了一个中文Bert模型fineweb_edu_classifier_chinese，可为任意输入文本预测0-5分质量得分。未来，OpenCSG算法团队计划将这两个资源开源，进一步促进社区的发展与交流。

消融实验

为了对比Chinese-fineweb-edu与传统中文预训练语料的效果差异，设计了一组对比实验。从CCI2-Data、SkyPile-150B、TeleChat-PTD、IndustryCorpus和MAP-CC这五个数据集中，随机抽取与Chinese-fineweb-edu数据比例相同的样本，构建了对照数据集chinese-random-select。

实验采用一个2.1B参数规模的模型，预训练了65k步。训练过程中定期保存checkpoint，并在中文评测基准CEval与CMMLU上进行验证。结果明确显示，使用Chinese-fineweb-edu训练的数据集在两个评测任务中均显著优于chinese-random-select，尤其是在训练后期呈现实质性优势。

进一步分析发现，在训练靠后阶段，推测是进入第二轮训练且学习率快速衰减所致，模型效果开始涌现。此时，使用chinese-fineweb-edu训练的模型准确率显著攀升，而使用随机抽取数据训练的模型则一直维持在较低基准。这证明了chinese-fineweb-edu具备更高的数据质量，能够在相同训练时间内更快地提升模型能力，这一结论与英文版Fineweb-Edu的实验结果相吻合。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：OpenCSG国内首发开源中文版FineWeb-Edu数据集要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2024092519830.html

ai 人工智能

上一篇：双汇子公司猪肉抗生素超标38倍年利润7000余万

下一篇：三大运营商9.9元起推Token AI使用将如交话费

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。