面包屑图标 当前位置: 首页
AI资讯
热点详情

Kimi 1.5技术报告深度解读,一文读懂核心要点

AI热点日报
AI热点日报时间:2026-06-30
热点解读

今天咱们来聊点硬核的——Kimi K1 5的技术报告。这款前沿的多模态大语言模型,凭借一套独特的强化学习训练方式和一系列创新技术,展现出了相当亮眼的性能,在多个领域都拿出了实打实的成果。可以说,它为人工智能的发展又开辟了一条新路径。下面,咱们就一起来拆解一下这份报告里的干货。 一、研究背景与创新点

今天咱们来聊点硬核的——Kimi K1.5的技术报告。这款前沿的多模态大语言模型,凭借一套独特的强化学习训练方式和一系列创新技术,展现出了相当亮眼的性能,在多个领域都拿出了实打实的成果。可以说,它为人工智能的发展又开辟了一条新路径。下面,咱们就一起来拆解一下这份报告里的干货。

kimi1.5技术报告解读,你想了解的都在这里

一、研究背景与创新点

传统的基于下一个token预测的预训练方式,虽然在计算规模扩展上取得了一定成效,但或多或少受到了可用训练数据规模的限制。随着数据增长的瓶颈逐渐显现,行业迫切需要找到新的扩展维度来推动AI性能的进一步提升。这时候,强化学习(RL)就跳出来给出了新的解题思路。当它和大语言模型结合起来,模型就能依据奖励机制自主探索,突破静态数据集的束缚,实现更广泛的数据学习,从而为性能的持续提升带来可能。

Kimi K1.5正是在这个背景下诞生的。它在设计与训练过程中融入了好几个关键创新点:一方面,通过把强化学习的上下文窗口扩展到128k,并借助部分滚动技术来提高训练效率,实现了长上下文扩展。这一突破意味着模型在处理复杂任务时,能利用更长的上下文信息,推理能力自然水涨船高。另一方面,在策略优化上,Kimi K1.5推导了长思维链强化学习的公式,并采用在线镜像下降的变体进行稳健的策略优化。与此同时,有效的采样策略、长度惩罚机制和数据配方优化,也都为提升模型性能添砖加瓦。这些创新点共同构建了一个简洁又高效的强化学习框架,让Kimi K1.5在不依赖复杂技术的情况下,也能展现出强大的性能。

二、模型训练过程

(一)强化学习提示集整理

高质量的数据是训练的基础,Kimi K1.5的强化学习提示集也不例外。在构建这个提示集时,团队重点考虑了三个关键特性:多样覆盖、难度平衡和准确可评估。

多样覆盖性要求提示能跨越多个学科领域,比如STEM、编码和通用推理等,这样才能增强模型的适应性和泛化能力。为此,团队用了自动筛选器,从各个领域里挑选那些需要深入推理、又容易评估的问题,同时还开发了一个标记系统对提示进行分类,确保不同学科领域都能被公平地代表。

难度平衡方面,团队采用了一种基于模型的方法:用SFT模型对每个提示生成多次答案,然后根据通过率来评估提示的难度。这样一来,难度评估就和模型的内在能力对上了号,能有效过滤掉那些太简单的案例,为强化学习训练提供更具挑战性的数据。

至于准确可评估性,为了避免奖励作弊问题,团队排除了那些容易出现错误验证的问题类型,比如选择题、判断题和证明题。对于一般的问答任务,他们也提出了一套识别和去除容易被破解提示的方法,确保模型性能的评估是基于正确的推理,而不是取巧。

(二)长思维链监督微调

基于精心整理的强化学习提示集,Kimi K1.5通过提示工程构建了一个小型但高质量的长思维链热身数据集。这个数据集里包含了经过准确验证的文本和图像输入的推理路径,模拟了人类推理过程中的规划、评估、反思和探索等关键认知活动。通过对这个热身数据集进行轻量级的监督微调,模型能够内化这些推理策略,进而在生成响应时表现出更详细、逻辑更连贯的特点,显著提升在各种推理任务中的表现。

(三)强化学习

  1. 问题设定:在强化学习阶段,Kimi K1.5的目标是训练一个策略模型,让它能在给定问题和真实答案的数据集上,生成正确的解决方案。思维链方法作为解决复杂问题的关键,通过一系列中间步骤连接问题和答案。在这个过程中,模型不仅要学习简单的基于提示的思维链推理,还得掌握规划技能,包括错误识别、回溯和解决方案优化,才能应对更具挑战性的问题。

  2. 策略优化:为了实现策略优化,Kimi K1.5采用了在线策略镜像下降的变体算法。在每次迭代中,模型通过优化相对熵正则化的策略优化问题,更新自己的参数。在这个过程中,团队用采样的方式近似计算相关参数,并通过计算梯度来更新模型。与传统策略梯度方法不同的是,Kimi K1.5的响应是从模型中采样出来的,并应用了L2正则化。这种方法可以看作是传统策略梯度算法在离策略情况下的自然扩展。值得一提的是,Kimi K1.5在训练系统中排除了价值网络,这个设计选择在提高训练效率的同时,鼓励模型探索更多样化的推理路径,增强了解决复杂问题的能力。

  3. 长度惩罚:在训练过程中,团队观察到模型存在“过度思考”的现象,也就是响应长度显著增加。虽然这在某种程度上提升了性能,但过长的推理过程既增加了训练和推理成本,又不太符合人类的偏好。为了解决这个问题,团队引入了长度奖励机制——根据响应的正确性和长度,对模型的输出进行奖励或惩罚。初步实验发现,长度惩罚可能会在训练初期影响效率,因此团队采用了逐步升温的策略:先进行无长度惩罚的标准策略优化,等模型稳定了,再在后续训练中引入固定的长度惩罚。

  4. 采样策略:为了提高训练效率,Kimi K1.5采用了多种采样策略。课程采样策略会根据问题的难度标签,让模型从简单任务开始训练,逐渐过渡到更具挑战性的任务。这样能避免在模型性能有限时,把过多的计算资源浪费在难题上,从而提升整体训练效率。优先级采样策略则是通过跟踪每个问题的成功率,对成功率较低的问题赋予更高的采样概率,让模型能集中精力学习薄弱环节,加快学习速度,提升整体性能。

  5. 训练配方的更多细节:在编码任务中,由于许多网络编码问题缺乏测试用例,Kimi K1.5设计了自动生成测试用例的方法。团队利用CYaRon库,结合模型自身生成的测试用例,经过多轮筛选,确保测试用例的有效性和高质量,为编码任务的训练提供了可靠依据。对于数学问题的奖励建模,团队采用了两种方法:经典奖励模型借鉴了InstructGPT的思路,而思维链奖励模型则通过生成逐步推理过程来提供更强大、更可解释的奖励信号。实验表明,思维链奖励模型在准确性上更胜一筹,因此被最终采用。在视觉数据方面,为了提升模型的视觉推理能力,Kimi K1.5的视觉强化学习数据来源于真实世界数据、合成视觉推理数据和文本渲染数据。这些数据涵盖了各种视觉推理任务,帮助模型在不同场景下学习和适应,增强了模型在多模态任务中的表现。

(四)长到短:短思维链模型的上下文压缩

长思维链模型虽然性能强劲,但在测试时消耗的token数量也比较多。为了提升短思维链模型的性能,Kimi K1.5提出了多种“长到短”的方法。模型合并通过平均长思维链模型和短思维链模型的权重,在不进行训练的情况下获得新模型,既保持了泛化能力,又提高了token效率。最短拒绝采样方法则是基于模型对同一问题生成的响应长度差异,多次采样并选择最短的正确响应进行监督微调。直接偏好优化(DPO)则利用长思维链模型生成多个响应样本,选择最短正确解作为正样本,较长响应作为负样本,形成成对偏好数据进行训练。长到短RL方法在标准RL训练后,选择性能和token效率平衡最佳的模型作为基础模型,进行单独的长到短RL训练,并应用长度惩罚机制,进一步优化模型性能。

(五)其他训练细节

  1. 预训练:Kimi K1.5的基础模型在多模态语料库上进行预训练,语料库涵盖了英语、中文、代码、数学推理和知识五个领域的语言数据,以及包含多种模态的多模态数据。在预训练过程中,团队通过严格的质量控制确保数据的相关性、多样性和平衡性。预训练分为三个阶段:视觉语言预训练阶段建立语言基础并逐步融合多模态;冷却阶段利用精选和合成数据巩固能力,特别是在推理和基于知识的任务上;长上下文激活阶段则将序列处理能力扩展到131,072个token。

  2. 香草监督微调:在香草监督微调阶段,Kimi K1.5创建了涵盖多个领域的语料库。对于非推理任务,通过人工标注构建种子数据集,训练种子模型后生成多个响应并进行排序和优化。对于推理任务,则利用拒绝采样扩展数据集。该阶段的数据集包含约100万个文本示例和100万个文本-视觉示例。模型在不同序列长度下进行训练,并通过调整学习率和打包训练示例来提高训练效率。

(六)强化学习基础设施

  1. 大规模强化学习训练系统:Kimi K1.5采用迭代同步的强化学习框架,结合部分滚动技术,优化复杂推理轨迹的处理。在训练过程中,滚动工作节点生成轨迹,存储在回放缓冲区中,训练工作节点根据这些轨迹计算梯度并更新模型权重。中央主节点负责管理数据和通信,确保系统协调运行。同时,系统还包含代码执行服务,用于处理代码相关问题,为奖励模型提供关键反馈,提升模型在编码任务中的性能。

  2. 部分滚动技术:部分滚动是Kimi K1.5处理长思维链特征的关键技术。它通过设置固定的输出token预算,对长响应进行分段处理。当轨迹在滚动阶段超过token限制时,未完成部分保存到回放缓冲区,在下一次迭代中继续。这种技术不仅避免了长轨迹对系统资源的独占,还通过异步操作提高了计算效率。同时,部分滚动系统还具备重复检测功能,能够识别并终止重复序列,减少不必要的计算,优化学习过程。

  3. 训练和推理的混合部署:为了解决训练和推理过程中的资源利用和并行策略问题,Kimi K1.5提出了混合部署策略。团队利用Kubernetes Sidecar容器共享GPU资源,将训练和推理工作负载部署在同一Pod中。在训练阶段,Megatron负责训练,训练完成后将权重转移给vLLM进行推理。推理结束后,释放vLLM占用的GPU内存,Megatron继续下一轮训练。这种部署方式实现了训练和推理的高效切换,减少了GPU资源的闲置时间,提高了资源利用率。

  4. 代码沙箱:Kimi K1.5开发了代码沙箱,作为执行用户提交代码的安全环境,用于代码执行和基准评估。通过动态切换容器镜像,沙箱支持多种使用场景,并提供一致的评估机制。为了优化性能,沙箱采用了Crun作为容器运行时,重用cgroups,优化磁盘使用等技术,提高了强化学习在代码执行中的效率,为模型的迭代训练提供了可靠的环境。

三、实验结果与分析

(一)评估基准

为了全面评估Kimi K1.5的性能,研究团队选择了多个涵盖不同模态的基准测试。文本基准测试包括MMLU、IF-Eval、CLUEWSC和C-EVAL,用于评估模型在世界知识、指令跟随、共指消解和中文知识推理等方面的能力。推理基准测试涵盖HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024和MATH-500,主要测试模型在编程、数学竞赛等推理任务中的表现。视觉基准测试则包含MMMU、MATH-Vision和MathVista,用于评估模型在多模态数学推理和视觉理解方面的能力。

(二)主要结果

Kimi K1.5的长思维链模型在多个基准测试中交出了领先的成绩单。在数学领域,MATH-500测试中达到了96.2的高分,AIME 2024中的Pass@1指标为77.5;在编码方面,Codeforces上达到了94%的百分位数。这些结果表明,模型在处理复杂推理任务时,能够充分利用长上下文信息和优化的策略,展现出强大的推理和综合信息能力。

短思维链模型同样表现出色,在多个任务中优于领先的开源和专有模型。在MMLU测试中,EM指标达到87.4;在AIME 2024中Pass@1指标为60.8;在LiveCodeBench中Pass@1指标为47.3。这得益于模型融合了传统监督微调、强化学习和长到短蒸馏等多种技术,使得模型在自然语言理解、数学、编码和逻辑推理等任务中都具备了较强的竞争力。

(三)长上下文扩展

通过对中型模型的实验,研究团队发现,随着训练的推进,模型的响应长度和性能准确性会同步增长。在处理更具挑战性的基准测试时,响应长度的增长更为明显,这表明模型确实能够为复杂问题生成更详细的解决方案。最终,Kimi K1.5将上下文长度扩展到128k,并在硬推理基准测试中持续提升性能,这验证了长上下文扩展对模型能力提升的重要性。

(四)长到短方法

在比较不同的长到短方法时,长到短RL算法在token效率上表现最为突出。例如,k1.5-short w/rl在AIME2024上以平均3,272个token的消耗,达到了60.8的Pass@1分数;k1.5-shortest在MATH500上以与其他短模型相近的token消耗,达到了88.2的Pass@1分数。这表明长到短RL算法能够有效地将长思维链模型的优势转移到短思维链模型上,从而提升短模型的性能和token效率。

(五)消融研究

  1. 模型大小和上下文长度的扩展:通过训练不同大小的模型并比较性能,研究发现,虽然较大模型在初始阶段性能优于较小模型,但较小模型通过利用强化学习优化的长思维链,也能达到与较大模型相当的性能。不过,较大模型在token效率上更具优势。这说明在追求最佳性能时,扩展较大模型的上下文长度是更优的选择;而在测试时间计算资源有限的情况下,训练较小模型并扩展其上下文长度,也是一个可行的方案。

  2. 使用负梯度的效果:研究团队对比了使用ReST作为策略优化算法和自身方法的效果。实验结果表明,Kimi K1.5所采用的方法在样本复杂度上优于ReST,能够在更少的训练样本下实现更强的性能。这凸显了在生成长思维链时,选择合适的策略优化算法是多么关键——负梯度的应用对于提升模型效率和推理质量具有显著作用。

  3. 采样策略:课程采样策略的实验结果显示,与均匀采样的基线方法相比,该策略能够显著提升模型性能。课程采样通过逐步提升任务的难度层次,让模型在处理更困难的问题之前先打好基础,从而更好地发展推理和解决问题的能力,这证明了该策略在优化模型训练过程中的有效性。

四、研究结论

总的来说,Kimi K1.5通过创新的训练方法和系统设计,在多模态大语言模型领域取得了实实在在的进展。研究结果明确显示,上下文长度的扩展对大语言模型的持续改进至关重要,而Kimi K1.5通过优化学习算法和基础设施,成功实现了高效的长上下文强化学习训练。同时,多种技术的结合让模型在策略优化方面表现出色,即使不依赖那些花哨的复杂技术,也能拿出强大的性能。此外,长到短方法展现出了提升短思维链模型性能的潜力,为提高模型的token效率提供了新的方向。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Kimi 1.5技术报告深度解读,一文读懂核心要点要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/MultimodalLargeModel/2025021083740.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-01 18:23
人工智能技术在多媒体中的十大应用场景盘点

人工智能,这个话题近年来在科技界已被反复提及。尽管热议不断,但它确实正在深刻改变众多行业。今年两会期间,AI技术成为焦点,而在实际应用中,从医疗、教育到多媒体展览展示,AI的渗透率越来越高。尤其在互动展览展示领域,AI几乎已成为推动多媒体展馆设计升级的核心动力。那么,问题来了——AI究竟是如何在多媒

AI热点2026-07-01 18:23
一文讲清本体与语义之间的关系到底是什么

如果要在数据治理、AI项目中少踩坑,开篇就得先理清一对概念:语义和本体。 说直接点——语义是“意义”本身,本体是把意义系统化、显性化、可共享的“建制”。一个比喻可能更形象:语义是水,本体是盛水的容器;语义是空气,本体是测量空气的仪器和标准;语义是人人都有的理解,本体是大家签字画押的契约。 这两个词在

AI热点2026-07-01 18:22
人工智能技术在钣金弯曲中的应用方法详解

在金属板材的高精度折弯领域,传统折弯机往往面临挑战。根本原因在于材料自身的特性差异——同一块板材因成分分布和晶粒取向不同,其弹性回弹行为也会大相径庭。要实现精确可控的折弯结果,操作人员需要拥有深厚的理论知识和丰富的实践经验,这通常导致整个加工周期较长。 在当今工业环境中,机器需要承载多种功能,既要确

AI热点2026-07-01 18:22
RAG技术构建企业级文档问答系统的Late Chunking切分

LateChunking将向量化置于切分之前,使片段向量融合上下文语义,以解决代词指代不明问题。虽在相似度计算中表现优于传统方法,但实际应用效果不佳,短句易与其他句子混淆,未能稳定提升检索质量。

延伸阅读