OpenCSG国内首发开源中文版FineWeb-Edu数据集
人工智能在自然语言处理(NLP)领域的发展速度令人瞩目,几乎覆盖了数字技术的各个角落,从智能客服与内容生成,到语音识别和翻译工具。在这一浪潮中,预训练模型成为核心驱动力,通过在海量数据中学习,掌握了丰富的语言知识和语义表达,为各类下游任务提供了强有力的支撑。 然而,一个关键挑战在于:预训练模型的质量
人工智能在自然语言处理(NLP)领域的发展速度令人瞩目,几乎覆盖了数字技术的各个角落,从智能客服与内容生成,到语音识别和翻译工具。在这一浪潮中,预训练模型成为核心驱动力,通过在海量数据中学习,掌握了丰富的语言知识和语义表达,为各类下游任务提供了强有力的支撑。
然而,一个关键挑战在于:预训练模型的质量很大程度上取决于其训练数据的来源。高质量的数据集能够帮助模型学习更为全面和准确的语言特征,从而在多种应用场景中表现出色。但遗憾的是,目前市场上大多数优质的预训练数据集主要集中在英文领域,专门针对中文的高质量数据集相对稀缺。尽管部分国内外的公司与研究机构已开始着手构建中文数据集,但这些资源不仅数量有限,质量也参差不齐,难以充分满足快速发展的中文NLP领域对高质量数据的需求。
正是为了解决这一痛点,OpenCSG算法团队正式启动了一项重要项目:中文版Fineweb Edu数据集。Huggingface的Fineweb Edu数据集已在国际NLP社区积累了一定知名度,其英文版本广泛应用于教育领域的自然语言处理任务。然而,针对中文环境,一直缺乏一个能够与之相媲美的高质量数据集。为弥补这一空白,OpenCSG团队将Fineweb Edu的构建经验引入中文领域,并结合中文的语言特点与教育实际进行了深度本地化优化。
此次发布的中文版Fineweb Edu数据集,不仅填补了中文预训练数据集的一个重要空白,也意味着OpenCSG开源社区在推动中文NLP技术发展方面实现了一个重要的里程碑。它为国内外研究人员提供了一个强大的工具,帮助他们在教育领域的NLP任务中取得更优异的研究成果。作为国内大模型开源社区的中坚力量,OpenCSG的核心使命是:将更多高质量的数据与模型资源带给全球的AI研究人员与开发者,持续推进AI技术的进步与广泛应用。
02 Huggingface Fineweb数据集介绍
Huggingface的FineWeb数据集于2024年5月31日首次发布,是一个面向大型语言模型预训练的大规模开源数据集,旨在促进NLP领域的研究。该数据集汇集了来自CommonCrawl的96个快照,总共包含超过15万亿个token,占用约44TB的磁盘空间。这些数据涵盖了从2013年至2024年的网页内容,通过精心设计的处理流程,FineWeb提供了丰富且多样化的高质量语料资源。
FineWeb的构建不仅依赖于庞大的数据规模,更体现在其精细的数据处理工艺上。在数据提取与清洗环节,Huggingface团队采用了先进的过滤策略来保障数据质量。例如,他们通过语言分类、URL过滤等方法去除非英语文本及不相关内容,并使用启发式过滤器删除过度重复的片段或未正确结束的文档。这些措施确保了数据集在保持规模的同时,具备高质量的内容。
为了进一步提升模型训练效果,FineWeb在去重处理中采用了MinHash模糊哈希技术。借助这一技术,团队能够高效移除数据中的重复部分,减轻模型对重复内容的过拟合,这对于提升模型在多样化文本理解上的表现至关重要。具体而言,FineWeb的数据去重包括逐个快照去重和全局去重,这种多层次策略确保了数据集的独特性和整体质量。
此外,FineWeb还推出了一个专门针对教育内容的子集——FineWeb-Edu。该子集通过Llama-3-70B-Instruct模型生成的合成注释进行分类和过滤,最终形成了一个1.3万亿token的教育类数据集,非常适合用于MMLU、ARC和OpenBookQA等教育领域的基准测试。
03 国内主流开源预训练数据集介绍
在构建高质量中文预训练模型的过程中,数据集的选择扮演着决定性作用。下面介绍几个与本次数据来源相关的国内主流开源预训练数据集——尽管它们提供了大量中文数据,但在质量和处理方法上各有差异,可以说良莠不齐。
1. CCI2-Data
为弥补中文高质量安全数据集的缺口,BAAI于2023年11月29日开源了CCI(Chinese Corpora Internet)数据集,并在此基础上进一步拓宽数据来源,采用更严格的数据清洗方法,完成了CCI 2.0数据集。CCI 2.0由来自可靠互联网来源的高质量数据组成,经过严格的清洗、去重和质量过滤处理。数据处理包括基于规则的关键词和垃圾信息过滤、基于模型的低质量内容筛选,以及数据集内部和之间的去重。最终发布的CCI 2.0语料库总容量为501GB,是一个高质量且安全可靠的中文语料库。
2. SkyPile-150B
SkyPile-150B是专为大规模语言模型预训练设计的综合性中文数据集,涵盖了来自公开中文互联网网页的海量数据。为确保质量,它经过严格的过滤、广泛的去重以及全面的敏感数据过滤处理,还使用了fastText和BERT等高级工具来筛除低质量内容。该数据集的公开部分包含约2.33亿个独特网页,每个网页平均超过1000个汉字,总token数约1500亿,纯文本数据容量达620GB。
3. IndustryCorpus
IndustryCorpus是BAAI发布的多行业中文预训练数据集,旨在提升行业模型的性能表现。该数据集总量约3.4TB,涵盖医疗、教育、法律、金融等18个重点行业。数据来自Wudao等多个大型数据集,经过22个行业特定数据处理操作的精细清洗和过滤,最终生成1TB高质量中文数据和2.4TB英文数据。由于其丰富的行业覆盖与严格的流程,特别适用于行业特定的语言模型训练。
4. Tele-AI
TeleChat-PTD是从电信星辰大模型TeleChat预训练语料中抽取的综合性大规模中文数据集,原始大小约1TB,压缩后为480GB,共包含189个文件。数据主要来源于网页、书籍和官方媒体等多种渠道,采用了规则和模型相结合的方式进行过滤和相似性去重。不过,要训练出更优秀的模型,还需要进行更高标准的数据处理。
5. MAP-CC
MAP-CC(Massive Appropriate Pretraining Chinese Corpus)是专为训练中文大模型设计的庞大数据集,包含800亿个Token,由多个子集组成,每个子集来自不同数据源,如博客、新闻、百科全书、学术论文、图书等。尽管已经进行了一系列去重和低质量数据筛除,但客观来说,数据质量仍然偏低,往往需要进一步筛选才能有效用于模型训练。
04 Chinese Fineweb Edu 数据集构建方法
数据集简介
Chinese Fineweb Edu数据集是一个精心构建的高质量中文预训练语料库,专为教育领域的NLP任务而设计。它通过严格的筛选与去重流程,借助少量数据训练评分模型进行评估,从海量原始数据中筛选出高价值的教育相关内容。最终,数据集包含约9000万条高质量中文文本,总大小约300GB。
数据集的下载地址现已开放,可在OpenCSG与Huggingface社区获取。
筛选方法
在数据筛选过程中,Chinese Fineweb Edu采用了与Fineweb-Edu类似的策略,重点聚焦教育价值与内容质量。具体实施步骤如下:
- 教育价值评估:首先使用csg-wukong-enterprise打分模型对样本的教育价值进行评判,依据内容的相关性与质量逐条给出0-5的评分。在初步筛选阶段,筛选出约10万条评分较高的数据。
- 打分模型训练:利用这10万条样本训练一个BERT模型,用于对更大规模的预训练数据集进行文本评分。这一步确保了模型能够准确识别出具有高教育价值的内容。
- 数据筛选:使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。这一筛选过程显著提升了数据集的质量与相关性。
- MinHash去重:为避免重复内容对模型训练产生负面影响,采用MinHash算法对所有数据进行了去重处理,确保数据独特性,同时保留多样化的教育内容。
原始数据来源
Chinese Fineweb Edu的原始数据来源广泛,涵盖了多个国内主流的中文预训练数据集。这些数据集在规模与领域覆盖面方面各有特点,但通过精细筛选和处理,最终为Chinese Fineweb Edu奠定了坚实的基础。主要数据源包括:
- CCI2-Data:经过彻底清洗、去重与质量过滤的高质量中文语料。
- SkyPile-150B:来自中国互联网的1500亿token大规模数据集,经过复杂过滤和去重。
- IndustryCorpus:涵盖多个行业的中文预训练数据集,包含1TB中文数据。
- Tele-AI:从电信星辰大模型TeleChat预训练语料中提取的高质量大规模中文数据集,约2.7亿条纯中文文本。
- MAP-CC:规模庞大的中文预训练语料库,融合了多种来源的高质量数据。
这些多样化的数据来源不仅提供了丰富的内容基础,还通过不同领域与来源的数据融合,增强了数据集的广泛适用性和全面性。
打分模型
使用OpenCSG的csg-wukong-enterprise企业版大模型作为评分模型,通过精心设计的prompt,对每条预训练样本进行评分,分数范围0-5分共6个等级:
- 0分:网页未提供任何教育价值,内容与学习无关。
- 1分:网页提供了一些与教育主题相关的基本信息,但夹杂无关或非学术内容。
- 2分:网页涉及某些与教育相关的元素,但与教育标准不符,内容可能混杂或浅显。
- 3分:网页适合教育使用,介绍了与学校课程相关的关键概念,但内容可能不够全面或连贯。
- 4分:网页对不高于中学水平的教育目的高度相关,写作风格清晰一致,内容连贯且重点突出。
- 5分:摘录在教育价值上表现卓越,完全适合小学或中学教学,写作风格易于理解,对主题提供深刻而全面的见解。
记录了10万条数据及其得分,形成fineweb_edu_classifier_chinese_data。以得分为标签,训练了一个中文Bert模型fineweb_edu_classifier_chinese,可为任意输入文本预测0-5分质量得分。未来,OpenCSG算法团队计划将这两个资源开源,进一步促进社区的发展与交流。
消融实验
为了对比Chinese-fineweb-edu与传统中文预训练语料的效果差异,设计了一组对比实验。从CCI2-Data、SkyPile-150B、TeleChat-PTD、IndustryCorpus和MAP-CC这五个数据集中,随机抽取与Chinese-fineweb-edu数据比例相同的样本,构建了对照数据集chinese-random-select。
实验采用一个2.1B参数规模的模型,预训练了65k步。训练过程中定期保存checkpoint,并在中文评测基准CEval与CMMLU上进行验证。结果明确显示,使用Chinese-fineweb-edu训练的数据集在两个评测任务中均显著优于chinese-random-select,尤其是在训练后期呈现实质性优势。
进一步分析发现,在训练靠后阶段,推测是进入第二轮训练且学习率快速衰减所致,模型效果开始涌现。此时,使用chinese-fineweb-edu训练的模型准确率显著攀升,而使用随机抽取数据训练的模型则一直维持在较低基准。这证明了chinese-fineweb-edu具备更高的数据质量,能够在相同训练时间内更快地提升模型能力,这一结论与英文版Fineweb-Edu的实验结果相吻合。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:OpenCSG国内首发开源中文版FineWeb-Edu数据集要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点利用Kimi撰写商务邮件时,先粘贴含收件人、事项及动作请求的初稿,再输入角色、场景、语气等明确指令,最后校验称谓、“请”字使用频率及时间金额等硬信息,经人工比对后发送,可提升邮件质量和效率。
AIGC技术正在席卷全球,金融行业自然也不能例外。从智能投顾到自动化报告,从个性化营销到风险控制,这波浪潮已经深入金融业务的各个关键环节。不少人觉得AIGC无非就是个效率工具,但更准确地说,它正在重新定义金融服务的创新逻辑与客户体验。不过,理想很丰满,现实却很骨感——很多从业者仍在困惑:这项技术到底
QoderWake脚本可在Windows、macOS、Linux间自动识别系统、处理路径差异并跳过临时文件,实现10秒内双向同步。编写时需确认环境,用绝对路径且避免全角字符或未转义空格。通过内置变量或动态拼接路径实现跨平台适配,并配置文件监控、30秒超时重试及冲突保留更新版本或生成副本的机制。
本地部署Qwen3-1 7B月成本约¥530,QoderCNPro+版API月费$99(6000Credits)。月调用≤2100次时本地更省钱;日均超80次深度诊断时API因节省人工审计成本更具优势。
- 日榜
- 周榜
- 月榜
热点快看
