数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

大模型置信度正确表达方法解析

AI热点日报时间：2026-06-27

热点解读

前言人类智能有一个很关键的能力：我们可以用多种方式来表达和传达自己到底有多不确定。对于人机协作来说，可靠的置信度估计至关重要——它能让决策更理性、信息更充足。具体到模型层面，置信度估计能为响应可靠性提供有价值的参考，帮助风险评估、错误缓解、选择性生成，甚至在自然语言生成任务中减少幻觉现象。今天，我们

前言

人类智能有一个很关键的能力：我们可以用多种方式来表达和传达自己到底有多不确定。对于人机协作来说，可靠的置信度估计至关重要——它能让决策更理性、信息更充足。具体到模型层面，置信度估计能为响应可靠性提供有价值的参考，帮助风险评估、错误缓解、选择性生成，甚至在自然语言生成任务中减少幻觉现象。今天，我们通过两篇相关论文，来聊聊怎么让大模型学会正确表达自己的置信度。

专题解读

背景与动机

在现有的研究中，从机器学习模型中提取置信度，通常依赖于对模型内部信息的白盒访问，比如token-likelihood、相关的校准技术，还有模型微调。但大语言模型普及之后，这些方法有点不灵了。原因主要有几个：

闭源的商用LLMs（比如GPT-3.5和GPT-4）只开放文本输入和输出，没法访问token-likelihood或嵌入向量。
token-likelihood更多捕捉的是模型对下一个词的不确定性，而不是文本本身固有的语义概率。举个例子，“巧克力牛奶来自棕色奶牛”这句话，每个词在上下文中都很自然，但高token似然度并不能反映整句话的虚假性——这需要从语义层面去检查。
模型微调需要大量计算资源，对很多研究人员来说是个不小的门槛。

在这些限制下，探索黑盒方法，从LLMs的答案中提取置信度，就成了一个迫切的需求。

于是，研究者从两个角度切入：一是探索用于引导置信度的黑箱方法；二是通过比较，找到能得出更准确置信度的方法和方向。他们定义了一个包含三部分的系统框架：Prompting引导置信度、Sampling生成多个响应、Aggregation计算一致性。针对每个部分，都设计了一套具体方法。通过整合这些部分，制定了一套专门用于置信度引导的算法，并在两个关键任务——置信度校准和失败预测——上进行基准测试，覆盖五种任务类型（常识、算术、符号、伦理、专业知识）和五个广泛使用的LLM（GPT-3、GPT-3.5、GPT-4、Vicuna、LLaMA 2）。

模型框架

模型框架如图，包括三部分：

Prompting

研究者设计了一系列引导置信度的prompting策略，具体来说：

CoT：为了更好地理解问题，从而增强对置信度的准确理解，采用了增强推理的引导策略。

Self-Probing：人类有一个普遍的特点——我们往往更容易发现别人答案里的错误，而不是自己的。因为我们会陷在自己的思维方式里，忽略掉错误。基于这个假设，研究者测试了：给定一个问题及其答案后，模型的置信度估计会不会改善？方法是：“上述答案正确的可能性有多大？”先在一个聊天会话中生成答案，再在另一个独立的会话中获取置信度。

Multi-Step：初步研究表明，LLM在语言化其置信度时，往往过于自信。为了解决这个问题，研究者尝试把推理过程分解成多个步骤，并提取每个步骤的置信度，看能不能减轻过度自信。原理是，理解每个步骤的置信度，能帮助模型识别潜在的不准确之处，更精确地量化整体信心。具体做法是：对给定问题，提示模型将推理过程细分成单独步骤，评估每一步的正确性置信度，然后聚合所有步骤的置信度得出整体结果。

Top-K：另一个减轻过度自信的思路是提出多种可能的解决方案，这可以看作对置信度分布的归一化。受此启发，Top-K提示LLM生成给定问题的前K个猜测及其对应的置信度。

Sampling

从模型中引出同一问题的多个回答，有几种方法：1）Self-Random：多次输入相同提示，利用模型本身的随机性得到不同答案。2）Prompting：通过以不同方式改写问题来生成多个回答。3）Misleading：向模型提供误导性线索，比如“我认为答案可能是……”。这种方法受人类行为启发：当人们有信心时，往往坚持自己的答案，即使听到相反意见；不确定时，则更容易因误导而犹豫或调整。基于这个观察，通过评估模型对误导信息的响应来度量其不确定性。

Aggregation

Consistency：对任意回答，采样一个备选答案集合，候选集合与初始答案的一致性可以衡量一致性。

A vg-Conf：在consistency的基础上，考虑每个答案的置信度，得到加权置信度。

实验设置

数据集：常识数据集（Sports Understanding，StrategyQA）、算术数据集（GSM8K，SVAMP）、符号推理数据集（Date Understanding，Object Counting）、专业任务数据集（Professional Law）、伦理数据集（Business Ethics）。
模型：Vicuna 13B、GPT-3 175B、GPT-3.5-turbo、GPT-4、LLaMA 2 70B。
评测方法：用期望置信错误（ECE）评估置信度，用AUROC评估错误预测。

实验结果

通过实验结果，研究者有以下发现：

LLM通常过于自信。

置信度的分布模仿了人类表达置信度的方式，模型对所有样本的置信度都倾向于较高，一般是5的倍数，大多数数值集中在80%到100%之间。这种行为表明，模型在口头化置信度时，可能是在模仿人类的表达习惯。

模型大小增加后，置信度和错误预测能力都有提升。

如图所示，随着模型规模增大，置信度和错误预测性能都有改善。

如图所示，还有以下发现：

Prompting策略可以提升模型的置信度和错误预测能力，但在更好的模型（如GPT-4）上，收益会下降。
没有一个Prompting策略能在所有模型上表现都好。
尽管Prompting策略能使ECE降低，但错误预测的表现仍然不太理想。

如上图所示：

多个回答的一致性，比简单的置信度能更明显提升置信度校准和错误预测。

总结

在这项研究中，研究者聚焦于置信度引导问题——也就是让大型语言模型（LLMs）能够准确表达对自己回答的把握程度。他们定义了一个由Prompting、Sampling和Aggregation三部分组成的系统框架，用于探索置信度引导算法，并在两个任务、八个数据集和五个模型上对这些算法进行了基准测试。研究发现，LLMs在表达信心时往往过于自信，但通过CoT和自我探测等提示策略，这种过度自信在某种程度上可以得到缓解。此外，结合特定聚合器的采样策略能够改善对错误的预测，尤其在算术数据集上效果明显。

背景与动机

这篇文章的作者通过自然语言微调模型，让模型学会表达置信度，他们称之为“口头化概率”。口头化概率的目标是以类人方式表达不确定性，而不是简单模仿人类训练数据。模型应该能够校准自身的不确定性，这与人类的不确定性有所不同。举个例子，GPT-3在计算机安全测试中能胜过大多数人类，但在算术问题（如“2 × 3 × 7 =？”）上却表现不佳。因此，预训练模型需要通过微调来生成经过校准的口头化概率。主要贡献有：

提出新的校准测试集。
微调GPT-3，使其能用文字表达校准后的置信度。
证明GPT-3并不是简单地输出logit中蕴含的不确定信息。
证明如何通过logits来fine-tune GPT-3，让其表达不确定性，并且发现在分布偏移后，模型仍然能泛化得很好。

方法

三种置信度

研究者考虑了三种置信度，如下图所示。

CalibratedMath

研究者提出了CalibratedMath，一个包含21个算术任务的测试集，包括加法、乘法、取整、等差数列和求余数。每个任务的问题和答案都是程序生成的。答案总是整数，某些任务可能有多个正确答案（例如：“列出任意一个小于208的质数？”）。这21个任务进一步根据每个操作数的位数和数字格式分为子任务。对于GPT-3来说，不同子任务的难度各不相同——乘法比加法难，位数增加难度也会加大。某些子任务对GPT-3来说明显更简单或更困难，这对构建有挑战性的校准测试至关重要。

与之前机器学习校准的研究类似，研究者关注校准在分布转移下的泛化表现。主要实验使用“加减法”训练集，如图所示，该训练集包括CalibratedMath中涉及加法或减法的任务，并且有唯一正确答案。评估集（称为“多答案”）包含多个正确答案的问题，有时涉及乘法和除法。训练和评估之间存在分布转移，主要体现在两个方面：

任务难度的变化：相比训练集（加减法），GPT-3更有可能正确回答评估集（多答案）中的问题。多答案的中位准确率为65%，而加减法的中位准确率仅21%（详见图8）。因此，模型应平均为评估集中的答案分配更高的概率，这是一种从训练到评估的“标签分布”变化。
内容的变化：训练集和评估集在使用的数学概念以及是否存在多个正确答案方面有所不同。

实验

如何微调一个预训练模型，让它输出经过校准的口头化概率？研究者使用监督学习对GPT-3进行微调。相比使用基于适当评分规则的强化学习，监督学习在原理上不如强化学习灵活，但用OpenAI的API更易实现，而且能对模型在训练分布之外的泛化能力进行有趣测试。

实验结果

从表中可以看到，在Add-substract训练集上训练的模型，能很好地泛化到Multiply-divide和Multi-answer验证集上。这说明发生分布偏移后，模型仍然表现良好。verbalized numbers在训练集上过拟合，而口头化概率在分布内的校准效果要好得多。模型对“Multi-answer”问题的回答不够自信——因为这些答案比“加减法”训练集中的答案更可能是正确的。indirect logit在“Multiply-divide”任务中泛化良好，校准表现非常出色，优于其他模型。但在“多答案”评估中，它不如口头化概率，可能因为在当前设置下避免过拟合更困难。未来的研究可以进一步探索在不同训练设置下（例如更多样化的概率和问题分布），indirect logit与verbalized numbers的表现比较。

为了更好地了解verbalized probability的泛化能力，研究者在随机k-shot设置下测试了GPT-3的校准表现，k从1到50。过程是：对评估集中每个问题，从“Add-substract”训练集中随机抽取k个新示例放入上下文。为生成verbalized probability，不使用贪婪解码（像微调实验中那样），而是找到模型前五个词元的加权和（权重是模型对这些词元的概率）。在两个评估集上，GPT-3起初明显未校准，但k达到25及以上时开始显露改进。当k=50时，性能已接近在超过2500个样本上训练的微调模型。一个可能的解释是：GPT-3已经拥有与校准置信度相关的问题和答案的潜在表示，少量few-shot示例帮助它定位了任务。

总结

研究结果表明，GPT-3在分布转移下具有一定的泛化校准能力。不过，虽然训练集和评估集在标签分布上有显著差异，但内容与格式变化不大。未来的工作可以测试校准是否能泛化到其他学科领域（如历史或生物学）以及其他格式（如聊天、长文本问答、预测）。同时，测试其他语言模型（尤其是那些在微调前就对概率有更好理解的模型）也很有价值。虽然本研究使用了监督学习进行微调，但未来可以探索更灵活的强化学习方法。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：大模型置信度正确表达方法解析要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2024102395624.html

ai 人工智能

上一篇：港大LightRAG让大模型RAG问答成本降低数十倍

下一篇：大模型高效新闻推荐系统实践方案

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。