清华联合发布Cache-to-Cache模型：用“传心术”重构AI通信新范式

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

清华联合发布Cache-to-Cache模型：用“传心术”重构AI通信新范式

热心网友时间：2025-10-30

转载

本文提出的 Cache-to-Cache（C2C）范式，成功实现了大模型间高效、通用的直接语义通信。

随着大语言模型的快速进步，为了适应越来越多样的工作场景，模型越来越多在指定场景进行针对性训练，例如代码、数学计算、视觉理解、边缘计算等。而在面对复杂任务与特定场景时，通过多智能体进行探索、决策、信息交换，可以实现相比单智能体更好的综合表现。

在多智能体系统中，现有的智能体多以 Text to Text（T2T）方式进行交流，即通过生成交流文本进行智能体之间的信息传递，而这种方式则会带来信息丢失（多维语义被压缩到一维文字）、语义模糊[3][4]、巨大延迟（逐个 token 生成）三大问题。基于此来自清华大学、无问芯穹、香港中文大学、上海人工智能实验室和上海交通大学的研究团队在论文中创新提出了 Cache to Cache（C2C）方式的信息传递，将模型的 KV-Cache 作为传播媒介，实现了直接的「脑对脑」交流，相比 T2T 的对话交流实现了 3%-5% 的正确率提升以及平均两倍的速度提升，为多智能体系统提供了一种全新的通信范式。

论文的核心贡献在于：

验证了超越文本的模型间通信的可行性提出了以 KV-Cache 作为媒介进行通信的方案 - C2C为多智能体通信提供了新的技术基础

a) T2T 通过显式文本生成传递信息 b) C2C 直接将不同模型的 KV-Cache 进行投影与融合

本工作现已开源，欢迎交流讨论。

代码链接：https://github.com/thu-nics/C2C主页链接：https://github.com/thu-nics论文链接: https://arxiv.org/pdf/2510.03215

背景：现有文本通信的局限性

在面对复杂任务与特定场景时，多智能体系统能够展现出超越单智能体的显著优势。然而，现有的 Text to Text（T2T）极大地限制了模型间的信息交流，尤其是在传递具有丰富语义的上下文时，产生了以下三大问题：

1.信息丢失：作为低带宽的传播媒介，在将信息压缩为一维文本序列并输出时，很容易造成高维语义降维时的信息丢失。

2.语义模糊：自然语言本身包含的模糊表达，尽管 MCP 等智能体交流协议希望可以标准化文本信息 [3][4]，但是固定的模版依旧难以满足灵活、开放的协作场景。

3.巨大延迟：T2T 传递采取逐个 token 输出，极大地限制了通信速度。

核心洞见：KV-Cache 的独特优势

KV-Cache 天然包含模型对话过程中的多维语义信息，无需额外二次处理。通过预实验，我们发现：

1. 在相同文本长度下，优化后的 KV-Cache 能够显著提升模型的准确率；

2. 不同模型之间的 KV-Cache 可以进行相互转换与传递，具备良好的通用性；

3. 不同模型针对相同上下文会生成各自独特的 KV-Cache 表示，体现了模型间能力的互补性。

此外，KV-Cache 在并行处理方面具有天然优势，能够精准弥补现有 T2T（Text-to-Text）方式的不足。例如，KV-Cache 可通过投影对不同词元实现完全并行的信息交流，有效避免低效的一维文本输出流程。

基于上述优势，我们团队探索了以KV-Cache为媒介的模型通信方式。实验表明，KV-Cache 不仅拓展了模型间交流的表达空间，还显著提升了效率和可扩展性。

源模型、目标模型以及转换后KV-Cache的t-SNE图

KV-Cache 优化实验

深入解析：C2C 直接语义通信的实现路径

1. Sharer 与 Receiver

团队将提供额外上下文理解的模型定义为 Sharer（分享者），而负责接收完整上下文并结合这些理解生成回复的模型定义为 Receiver（接收者）。

2. 核心机制：C2C-Fuser

C2C 的核心在于 KV-Cache 的融合。为此，我们设计了融合器 F 以及层映射策略 G。

在 prefill 阶段，第 n 层的融合器 F (n) 会用 Receiver 的第 n 层 KV 和 Sharer 的第 G (n) 层 KV 进行融合，生成新的 KV 表示。在解码阶段，模型则利用融合后的 KV-Cache 和当前前缀，进行自回归生成，实现信息的有效利用。

3. 融合器设计：残差式信息注入

为防止融合过程破坏 Receiver 原有语义，Fuser 采用残差融合结构，分为投影层、动态权重层和可学习门控三部分。

投影层：将两侧 KV 在头 / 通道维度拼接，通过线性投影与特征融合映射到统一表征空间；实现初步的信息整合；动态权重层：用输入感知的 head-modulation 对投影后的各注意力头 / 通道做自适应加权；促使模型可以判断：在何时应当保留 Receiver 的输入，何时应当增强 Sharer 的引导；可学习门控：每层有可训练门控，使用带温度退火的 Gumbel-sigmoid，从开始训练时的可微加权平滑过渡到推理时的 0/1 决策。最终以残差形式与 Receiver 原 KV 相加，保留原始表征；保证了训练的有效性以及 Receiver 输出的稳定性。

这样可以自适应地将 Sharer 的信息以残差方式注入 Receiver，实现更有效的信息整合与传递。

4. 模型对齐：跨模型、跨层级的映射

为保证不同模型（系列、尺寸）之间 KV 表示的兼容性，C2C 引入模型对齐机制。

Token 对齐：将 Receiver 的每个 token 解码为字符串，再用 Sharer 的分词器重新编码；遇到一对多映射时，选取覆盖字符串最长的 Sharer token 以最大限度保障信息精准传递。Layer 对齐（也即层映射策略）：采用「末端对齐」策略 —— 先对齐两模型的最顶层，然后按逆序逐层对齐直到较浅模型的第一层，优先保障深层语义的融合传输。

5. 训练框架：专注于 C2C Fuser 模块

在训练过程中，团队冻结 Sharer 和 Receiver 的参数，仅训练 C2C 融合器模块，采用类似SFT的 next token prediction 损失。训练流程包括前向传播、KV-Cache 融合，以及最终的监督学习与传播，确保 C2C 能稳定高效地实现模型间的信息传递。

结果与分析：C2C 的性能与效率优势

训练数据：OpenHermes2.5 [14]

为确保泛化能力，团队在通用微调语料库 OpenHermes2.5 [14] 中选取前 50 万个样本来训练 C2C Fusers。

模型组合：

涵盖不同系列（Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] ）、不同规模（0.6B～14B）、不同专业领域（通用、代码、数学）以及不同训练阶段（预训练、指令微调）模型。例如，用 Qwen2.5-Math 作为 Sharer，Qwen3-0.6B 作为 Receiver，测试学科知识传递。

基线方法：

T2T：Sharer 生成解析文本，Receiver 接收解析文本以及原问题后进行回答query-level routing：根据问题难度动态选择 Sharer 或 Receiver 回答单模型：Sharer 和 Receiver 分别单独回答

评测基准：

OpenBookQA[9]：考察模型对科学常识和开放性知识推理能力MMLU-Redux[10]：考察多领域、多任务的专业知识理解与综合能力ARC-C [11]：考察复杂科学推理任务C-Eval [12]：考察模型在中文环境下的多学科知识与应用能力

整体表现

在主要评测基准上的测试结果，使用Qwen-0.6B作为Receiver

如表所示，C2C 在不同设置和基准上持续提升了 Receiver 的性能。

准确性提升：显著超越个体与文本通信：

针对三种不同的 Sharer，分别观察到 C2C 相比单个 Sharer 平均准确率提升 11.00%、9.64% 和 11.88%。与 T2T 相比，C2C 的平均准确率分别额外提升了 5.36%、4.15% 和 3.06%。

效率增益：延迟大幅降低：

由于省去了中间文本消息的生成，相比 T2T，C2C 在推理时间上分别实现了约 3.46×、1.51× 和 14.41× 的加速。相较之下，query-level routing 更侧重效率，但其准确率一般不超过两个原始模型中的较好者。

值得注意的是，当使用 Qwen3-4B Base 作为 Sharer 时，该模型生成的文本有时会忽视指令并超出预期长度，导致文本到文本通信时间显著增长，而 C2C 能绕过该问题。这一设置展示了一个有趣的用例：即使是弱的 SFT 模型，也能帮助强大的预训练基础模型更好地遵循指令。

泛化实验

分别在规模扩展、序列长度扩展与不同模型组合三个层面上进行泛化实验，结果说明 C2C 在三个层面上均能有效泛化，具体实验结果详见正文部分。

消融实验

Single 表示在没有 Sharer 的情况下对 Receiver 进行标准的完整微调；Identical 表示 Sharer 与 Receiver 均为 Qwen3-0.6B 的 C2C 配置。

实验结果说明 C2C 的改进并非单纯来源于增大的可训练参数量或对训练集的过拟合，而是来自异构 Sharer 提供的互补性上下文理解。即便是 Identical 相较于 Single 也有提升，表明 Cache 级别的自我通信（cache-level self-communication）能提供有益的辅助表征，这与在隐空间推理和循环 Transformer 中观察到的效应一致 [15][16]。