面包屑图标 当前位置: 首页
AI资讯
热点详情

草稿链Chain-of-Draft成为提示技术新王者

AI热点日报
AI热点日报时间:2026-07-05
热点解读

草稿链(Chain-of-Draft,简称CoD)提示技术的出现,正在重新定义大语言模型的推理方式。这项创新不仅在性能上超越了经典的思维链(Chain-of-Thought,CoT)提示,更以前所未有的幅度降低了推理成本与响应延迟。核心看点有三:CoD的独特机制、它与CoT的对比差异,以及它在减轻计

草稿链(Chain-of-Draft,简称CoD)提示技术的出现,正在重新定义大语言模型的推理方式。这项创新不仅在性能上超越了经典的思维链(Chain-of-Thought,CoT)提示,更以前所未有的幅度降低了推理成本与响应延迟。核心看点有三:CoD的独特机制、它与CoT的对比差异,以及它在减轻计算负担和缩短响应时间方面的实际潜力。

推理型大语言模型无疑是当下AI研究最受关注的议题。从最初的GPT-1一路发展到今天的Grok-3,这段历程堪称波澜壮阔,其间涌现出不少关键的推理方法。其中,思维链提示(无论是Few-shot还是Zero-shot版本)几乎引领了整个LLM推理的革命。而现在,来自Zoom Communications的研究人员带来了一个更优的方案——草稿链提示。它在准确性上不输CoT,而推理时使用的token数量最低仅占CoT的7.6%。对于当前那些动辄生成冗长推理链、计算成本高昂且延迟明显的大模型来说,这无疑是一个重大利好——高延迟恰恰是许多实时应用落地的最大瓶颈。本文将深入拆解草稿链提示的工作原理,并介绍如何利用它让模型变得更准、更省。

但首先,我们得聊聊提示技术

研究者在LLM中不断发现新的行为模式。从Transformer架构到生成式预训练模型GPT,当参数规模扩展到GPT-2(15亿参数)时,模型已经表现出无监督多任务学习的能力——无需在特定任务数据上微调,就能执行多项任务。而当参数激增至GPT-3的1750亿时,人们发现只要在输入提示中给出少量示例(Few-shot Prompting),模型就能快速适应新任务并表现优异。

随后一个更重要的发现浮出水面:如果把问题的解决过程分解成连续的中间推理步骤,并引导大模型逐一生成这些步骤,那么模型在算术、常识推理、符号推理等任务上能取得当时最先进的成绩。这个方法被称为思维链提示(Chain-of-Thought,CoT)

标准提示与思维链提示的示例对比(图片来自 ArXiv 研究论文 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models')

CoT之后很快又发现,LLM天生就是Zero-shot推理器。与原始的CoT不同,它们不需要通过few-shot推理示例来“辅导”,只需在提示末尾加上一句“Let's think step by step”,模型就能自动展开逐步推理。这种方法被称为零样本思维链提示(Zero-shot Chain of Thought Prompting)

标准 Zero-shot 与 Few-shot 提示、原始 CoT 提示(表示为“(b) Few-shot-CoT”)以及 Zero-shot CoT 提示之间的比较(图片来自 ArXiv 研究论文 'Large Language Models are Zero-Shot Reasoners')

不过研究人员很快意识到,仅仅链式推理加贪婪解码还不够。复杂的推理任务常常存在多条可行的推理路径,如果多条路径都指向同一个答案,那么最终答案就更有把握。于是诞生了一种新的解码策略——自洽性(Self-Consistency):通过采样让模型生成多个推理路径,然后从中挑选最一致的答案。

CoT 提示中贪婪解码与自洽性的对比(图片来自 ArXiv 研究论文 'Self-Consistency Improves Chain of Thought Reasoning in Language Models')

提示架构的演进

沿着“多条推理路径探索”的思路,思维树(Tree-of-Thoughts,ToT)框架应运而生。它用树状的思维过程来遍历解空间,把中间步骤称为“Thoughts”,并通过带有前瞻和必要回溯的搜索算法来评估和探索这些步骤。

思维树框架示意图(图片来自 ArXiv 研究论文 'Large Language Model Guided Tree-of-Thought')

各类推理方法的对比(图片来自 ArXiv 研究论文 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models')

树状结构随后又被图状架构取代,产生了思维图(Graph-of-Thoughts)框架,从而更好地建模解空间。

思维图与其他推理方法的比较(图片来自 ArXiv 研究论文 'Graph of Thoughts: Solving Elaborate Problems with Large Language Models')

但这还没完。提示远非提升LLM推理能力的唯一途径,其他技术也层出不穷。不过,有一个问题一直如影随形——延迟。

延迟问题怎么破?

探索推理空间本身就是一件计算极其昂贵的事情,它会显著拉长响应延迟。为了压缩延迟,研究者提出了一种变通方法:思维骨架(Skeleton-of-Thought,SoT)。它先引导模型生成一个答案的骨架或大纲,然后通过并行API调用或批量解码,一次性填充每个骨架点的内容。

思维骨架与标准解码的对比概述(图片来自 ArXiv 研究论文 'Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation')

另一方面,推理模型有时也会对简单的问题想得太多,生成大量不必要的推理token,导致从查询到响应的时长失控。

关于问题“2 加 3 的答案是什么?”生成的标记(图片来自 ArXiv 研究论文 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')

比如,QwQ-32-B-Preview模型为了算个2+3,竟然生成了这么长一段推理过程。

QwQ-32-B-Preview 对一个简单的算术问题过度思考(图片来自 ArXiv 研究论文 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')

研究人员尝试通过限制推理标记预算来解决这个问题,但LLM往往不遵守预算。后来又引入了一个额外LLM,根据问题的复杂性在回答前动态估算标记预算——但这反而进一步增加了延迟。

具有估计和提示功能的标记预算感知 LLM 推理 (TALE) 概述(图片来自 ArXiv 研究论文 'Token-Budget-Aware LLM Reasoning')

那么,能不能把所有这些洞见整合起来,简化为单一方法?

“草稿链”提示法登场

回到根本。思维链(CoT)固然是提升LLM推理能力的利器,但它太冗长了——模型在得出答案之前常常生成成千上万个推理token。这与人类实际思考和推理的方式截然不同。人在思考时,并不会用极其啰嗦的语言一步步推理,而是仅记录下最关键的几个中间点——就像打草稿一样。

草稿链提示法(Chain-of-Draft,CoD)正是从这个灵感出发。它只是要求模型逐步思考,但把每个推理步骤限制在最多五个词以内。为了让模型真正理解这个要求,研究人员在提示中手动编写了若干草稿链的少样本示例。令人惊讶的是,这个限制并没有被强制执行,模型只是把它当作一般性指导原则来接受。

这与标准的少样本提示不同——后者在提示中给出查询-响应对,要求模型直接返回最终答案,不附带任何推理。同时,它也不同于思维链提示——后者在提示的查询-响应对中给出了详细的中间推理步骤。下面两张图清楚地展示了这些方法在处理简单算术题时的差异。

CoD 提示法的实战表现

为了评估CoD的效果,研究人员用标准提示、CoT提示和CoD提示分别对GPT-4o和Claude 3.5 Sonnet进行了测试。下图展示了针对每种方法所给予的系统提示。

标准、CoT 和 CoD 提示法的系统提示对比

在算术推理数据集GSM8K上,CoD达到了91%的准确率,同时使用的token比CoT少了80%。虽然精度略有下降(GPT-4o上CoD为91.1%,CoT为95.4%),但延迟大幅降低,且没有显著牺牲正确性。

不同提示技术在 GSM8K 上的评估结果

在BIG-bench任务的日期理解和体育理解两项常识推理测试中,CoD显著降低了延迟和token消耗,而准确率与CoT持平甚至更高。

BIG-bench 任务上的日期理解评估结果

尤其值得关注的是体育理解任务中与Claude 3.5 Sonnet搭配的结果:CoT的平均输出token为189.4,而CoD直接降到了14.3——减少幅度高达92.4%!

BIG-bench 任务上的体育理解评估结果

最后,在符号推理任务“硬币翻转”(预测一系列翻转后的最终硬币状态)上,CoD取得了100%的准确率,而且使用的token远少于其他方法。

研究人员创建的硬币翻转数据集中的问题示例

研究人员创建的包含 250 个测试用例的自定义数据集上的硬币翻转评估结果

这些结果令人眼前一亮。CoD提示法用最小的延迟实现了极高的准确率,大大缩短了响应时间,对于时间敏感或计算资源有限的应用场景尤其友好。此外,这类CoD数据还可以用来训练LLM更高效地推理(借鉴DeepSeek-R1的强化学习训练方法),让模型变得更快、更便宜、更具可扩展性。整个方向的前景确实令人兴奋。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:草稿链Chain-of-Draft成为提示技术新王者要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/tishicijiqiao/2025032682510.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 17:22
craftygform自动生成Google表单

提起在线表单工具,大多数人会立刻想到Google Forms——功能全面、免费且操作简便。然而,每次从零开始创建表单往往伴随着大量重复性工作:逐一设置字段、调整布局、配置逻辑条件……假如有一款工具能根据你的需求“智能生成”表单,效率将得到质的飞跃。 它适合谁? 无论是希望快速获取客户反馈的产品经理,

AI热点2026-07-05 17:22
AI自动将表单和图像转换为Excel表格

将表单和图片转换为Excel表格?如今借助AI技术,这一过程已实现自动化,并且识别精度相当出色。 什么是FormToExcel? 简而言之,FormToExcel 是专门处理纸质文档数据的强大工具。它能够从PDF、JPG、BMP等格式的文件中,将表单、表格、收据和发票直接转换为您需要的Excel电子

AI热点2026-07-05 17:22
Riffo AI智能文件重命名与工作区管理工具

在日常数字文件管理工作中,许多用户都会遇到这样的难题:文件命名杂乱无章、散落在不同位置,查找起来既费时又低效。Riffo 正是为破解这一痛点而诞生——它是一款基于人工智能的智能文件重命名与整理工具,专为摄影师、设计师以及其他需要高效管理素材的专业人士打造,旨在显著节省时间、提升工作流程效率。 什么是

AI热点2026-07-05 17:22
日常智能工具提升效率创造业务价值

在数字化工具层出不穷的当下,能够真正覆盖多场景需求的集成平台屈指可数。Berack AI 精准瞄准了这一市场空白——它并非单一功能的聊天机器人,而是一套面向现代工作流程的全方位生产力工具集。 哪些场景用得上 从社交媒体管理到市场营销,从内容创作到SEO优化,再到YouTube视频制作、自由职业者接单

延伸阅读