AI2新模型OLMo2颠覆LLM格局训练过程全公开数据架构双升级
【导读】非营利研究机构AI2最近拿出了他们的新作品——OLMo 2系列,并且直言不讳地称之为“迄今为止最好的完全开源模型”。这个系列不仅包含7B和13B两个型号,在性能上与Llama 3.1、Qwen 2.5等主流开源模型打平甚至更优,而且计算效率更出色,为开源大模型开辟了一条新路。
最近,非营利机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。
OLMo 2系列包含7B和13B两个型号,与Llama 3.1和Qwen 2.5等开源模型相比,性能相当甚至更优,同时所需的FLOPS计算量更少。这意味着它在性能和计算效率之间找到了一个极佳的平衡点,为开源LLM打开了新的可能性。
不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型。
在多个下游任务测试中,OLMo 2的泛化能力和适应性表现突出。在10个基准测试上,OLMo-2-13B全面超越了Llama-2-13B,而OLMo-2-8B的基准均分也超过了Llama-3.1-8B。
## 训练过程全公开
与Llama、Qwen这类只开源模型权重的项目不同,AI2这次依然坚持了他们一向的风格——不仅发布训练好的OLMo 2模型权重,还大方地公开了训练数据、代码和完整的训练过程。这对后续LLM的研究和应用来说,无疑是极其宝贵的资源。
论文地址:https://arxiv.org/pdf/2501.00656
OLMo 2的训练过程被清晰地划分为三个阶段:预训练、中期训练和后期的指令调优。预训练的数据混合了高质量的网页数据、代码数据和学术论文数据等。
在预训练阶段,团队通过多种技术手段来提升训练稳定性,比如过滤重复的n-gram、采用更好的初始化方法、架构优化以及超参数调整。这些都确保了模型在训练过程中不会出现崩溃或损失值剧烈波动的问题,从而最终模型的表现更上一层楼。
预训练使用的高质量数据集
接下来的中期训练阶段,团队使用了高质量的领域特定数据(比如数学数据)以及合成数据,重点增强模型在数学任务上的表现。配合微退火技术来评估和筛选高质量数据源,进一步优化了中期训练的效果。
中期训练使用的高质量数据集
最后的指令调优阶段,研究人员基于Tülu 3的指令调优方法,开发出了OLMo 2-Instruct模型。这个阶段严格使用许可数据,并在最终阶段扩展了强化学习与可验证奖励(RLVR)的运用。
此外,监督微调(SFT)、直接偏好优化(DPO)和RLVR等多阶段训练策略,显著提升了模型的指令跟随能力和生成质量。
OLMo 2的开源是全方位的,所有用于复制和扩展这些模型的训练代码、评估代码、数据集、模型检查点、日志以及超参数选择,全部公开。相比只开放权重,这种做法能让更多研究人员和开发者真正上手使用、甚至改进这些模型。
通过开源所有组件,OLMo 2有助于更深入地理解语言模型的行为和使用方式,也促进了语言模型研究的透明度和可重复性。这些积累有望成为未来研究的重要基础设施。
OLMo 2 7B和13B模型训练过程中的超参数
## 多管齐下造就「低碳」LLM
在大规模语言模型的训练中,计算资源和环境影响是绕不开的话题。Deepseek V3能以二十分之一的成本完成训练,而OLMo 2团队同样通过减少主机-设备同步、优化数据预处理、数据缓存等多种方法,大幅降低了训练成本,效果显著。
OLMo 2的训练主要在两个集群上完成:Jupiter和Augusta。Jupiter集群配备了128个节点,每个节点8张H100,总共1024个GPU;Augusta集群由160个A3 Mega虚拟机组成,每个虚拟机同样有8张H100,总共1280个GPU。
OLMo 2的7B模型在4.05万亿token上训练,13B模型则在5.6万亿token上训练。整体训练时间取决于模型的参数规模和数据量。
为了进一步降低能源消耗,团队还采用了水冷系统来给GPU降温和控功耗,这既提高了训练效率,也降低了电力成本。
所有这些措施加在一起,效果惊人:相比训练同等大小的Llama 3.1所消耗的1022MWh电力,OLMo 2 7B在整个训练过程中只消耗了131MWh,相当于只有十分之一的耗电量。训练所需的算力、能源以及碳足迹都显著下降。
OLMo 2的发布,标志着开源LLM在持续进步,也为相关领域的研究建立了一个全新的生态系统。在这个生态里,新的训练方法和技术需要被理解、被分享、被传承。
来源:https://www.aiagiai.com/8096.html
OLMo 2系列包含7B和13B两个型号,与Llama 3.1和Qwen 2.5等开源模型相比,性能相当甚至更优,同时所需的FLOPS计算量更少。这意味着它在性能和计算效率之间找到了一个极佳的平衡点,为开源LLM打开了新的可能性。
不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型。
在多个下游任务测试中,OLMo 2的泛化能力和适应性表现突出。在10个基准测试上,OLMo-2-13B全面超越了Llama-2-13B,而OLMo-2-8B的基准均分也超过了Llama-3.1-8B。
## 训练过程全公开
与Llama、Qwen这类只开源模型权重的项目不同,AI2这次依然坚持了他们一向的风格——不仅发布训练好的OLMo 2模型权重,还大方地公开了训练数据、代码和完整的训练过程。这对后续LLM的研究和应用来说,无疑是极其宝贵的资源。
论文地址:https://arxiv.org/pdf/2501.00656
OLMo 2的训练过程被清晰地划分为三个阶段:预训练、中期训练和后期的指令调优。预训练的数据混合了高质量的网页数据、代码数据和学术论文数据等。
在预训练阶段,团队通过多种技术手段来提升训练稳定性,比如过滤重复的n-gram、采用更好的初始化方法、架构优化以及超参数调整。这些都确保了模型在训练过程中不会出现崩溃或损失值剧烈波动的问题,从而最终模型的表现更上一层楼。
预训练使用的高质量数据集
接下来的中期训练阶段,团队使用了高质量的领域特定数据(比如数学数据)以及合成数据,重点增强模型在数学任务上的表现。配合微退火技术来评估和筛选高质量数据源,进一步优化了中期训练的效果。
中期训练使用的高质量数据集
最后的指令调优阶段,研究人员基于Tülu 3的指令调优方法,开发出了OLMo 2-Instruct模型。这个阶段严格使用许可数据,并在最终阶段扩展了强化学习与可验证奖励(RLVR)的运用。
此外,监督微调(SFT)、直接偏好优化(DPO)和RLVR等多阶段训练策略,显著提升了模型的指令跟随能力和生成质量。
OLMo 2的开源是全方位的,所有用于复制和扩展这些模型的训练代码、评估代码、数据集、模型检查点、日志以及超参数选择,全部公开。相比只开放权重,这种做法能让更多研究人员和开发者真正上手使用、甚至改进这些模型。
通过开源所有组件,OLMo 2有助于更深入地理解语言模型的行为和使用方式,也促进了语言模型研究的透明度和可重复性。这些积累有望成为未来研究的重要基础设施。
OLMo 2 7B和13B模型训练过程中的超参数
## 多管齐下造就「低碳」LLM
在大规模语言模型的训练中,计算资源和环境影响是绕不开的话题。Deepseek V3能以二十分之一的成本完成训练,而OLMo 2团队同样通过减少主机-设备同步、优化数据预处理、数据缓存等多种方法,大幅降低了训练成本,效果显著。
OLMo 2的训练主要在两个集群上完成:Jupiter和Augusta。Jupiter集群配备了128个节点,每个节点8张H100,总共1024个GPU;Augusta集群由160个A3 Mega虚拟机组成,每个虚拟机同样有8张H100,总共1280个GPU。
OLMo 2的7B模型在4.05万亿token上训练,13B模型则在5.6万亿token上训练。整体训练时间取决于模型的参数规模和数据量。
为了进一步降低能源消耗,团队还采用了水冷系统来给GPU降温和控功耗,这既提高了训练效率,也降低了电力成本。
所有这些措施加在一起,效果惊人:相比训练同等大小的Llama 3.1所消耗的1022MWh电力,OLMo 2 7B在整个训练过程中只消耗了131MWh,相当于只有十分之一的耗电量。训练所需的算力、能源以及碳足迹都显著下降。
OLMo 2的发布,标志着开源LLM在持续进步,也为相关领域的研究建立了一个全新的生态系统。在这个生态里,新的训练方法和技术需要被理解、被分享、被传承。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
微软Copilot插件安装全流程:浏览器与扩展市场配置
围绕MicrosoftCopilot在浏览器、编辑器和扩展市场中的安装与配置,梳理账号准备、安装步骤、权限检查、常见故障及安全使用边界,适合新手快速完成AI办公工具部署。
时间:2026-07-01 06:47
Microsoft Copilot Docker 一键部署指南:镜像拉取、端口映射与数据目录配置
围绕Copilot类AI办公工具的Docker部署流程,说明镜像选择、拉取校验、端口映射、数据目录挂载、环境变量配置、更新回滚与常见故障处理。
时间:2026-07-01 06:47
微软Copilot API密钥注册获取与国内网络配置
围绕MicrosoftCopilot相关接口接入流程,梳理账号准备、Azure资源创建、密钥获取、环境变量配置、国内网络连通性优化、常见报错处理与安全管理要点。
时间:2026-07-01 06:47
微软Copilot Linux部署:环境准备到后台运行全流程
MicrosoftCopilot不适合按本地模型方式安装,Linux服务器更常见的是部署企业入口或集成服务。流程需完成账号授权、运行环境、服务配置、反向代理、进程守护与日志监控,并注意数据权限、访问控制和合规边界。
时间:2026-07-01 06:47
Microsoft Copilot macOS安装教程:Apple Silicon与Intel配置步骤
MicrosoftCopilot在Mac上可通过网页应用、Edge侧边栏或Microsoft365组件使用,AppleSilicon与Intel机型重点在系统版本、浏览器、账号授权和隐私设置。
时间:2026-07-01 06:46
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-01 06:47
2026-07-01 06:47
2026-07-01 06:47
2026-07-01 06:47
2026-07-01 06:46
2026-07-01 06:46
2026-07-01 06:46
2026-07-01 06:46
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
苍蓝前线高性价比阵容搭配与实战布阵攻略
发布于 2026-07-01
伊莫手游新手零基础入门全流程开荒攻略
发布于 2026-07-01
芙娅之魂高输出爽操作职业推荐
发布于 2026-07-01
我要当老祖主线7-10通关阵容养成详解
发布于 2026-07-01
圣剑之刃魔方玩法入门到精通图解攻略
发布于 2026-07-01
三国天下归心第五批服务器S2赛季更新公告
发布于 2026-07-01
星辰女巫影月技能加点与出装攻略
发布于 2026-07-01
打开时空三国感受群雄纷争的魅力世界
发布于 2026-07-01
麒麟系统字体太小看不清如何调整界面字体大小
发布于 2026-07-01
Win11记事本默认不换行如何设置为自动换行
发布于 2026-07-01
银河麒麟系统时间快几分钟的调整方法
发布于 2026-07-01
Win11多屏下设置软件只在特定屏幕打开的方法
发布于 2026-07-01
网易闪电邮附件下载失败的解决方法
发布于 2026-07-01
Origin下载卡在0%的解决方法
发布于 2026-07-01
萝卜投研电脑版安装教程与下载方法详解
发布于 2026-07-01
小米智能存储规格揭晓:4+32GB存储与40Mbps免费远程访问
发布于 2026-07-01
热门话题

