Pass@k：评估AI代码生成能力的核心指标

本次查询Pass@kAI 热词解释结果

中文解释前k次通过率

热词类型评估指标

常见场景在评估代码生成模型时 / Pass@k 用于衡量模型在多次尝试下找到正确代码的能力 / 常用于论文 / 模型基准测试（如 HumanEval）和产品效果评估。

一句话解释

Pass@k 是指模型在 k 次独立生成的代码中，至少有一次通过测试用例的概率。例如 Pass@1 表示一次生成就正确的概率，Pass@100 表示尝试 100 次至少一次正确。

实际开发中人们通常会给 AI 多次生成机会，而不是只依赖一次结果。Pass@k 能更真实反映模型在辅助编程时的可用性，比单一的正确率指标更有实际意义。

此外，不同采样参数（如温度）会影响生成多样性，Pass@k 可以帮助评估模型在“多试几次”场景下的上限，从而指导模型选型和调优。

计算 Pass@k 需要让模型对每个问题生成 n 次（n≥k），然后统计所有样本中至少有一个正确结果的个数。为避免有偏估计，通常采用无偏估计公式：Pass@k = 1 - C(n-c, k) / C(n, k)，其中 c 是正确结果的数量。

简单理解：如果模型在 200 次生成中只有 1 次正确，那么 Pass@1 很低（0.5%），但 Pass@100 可以接近 50%。这说明模型虽然单次不靠谱，但在足够多的尝试下仍有较高成功概率。

在 HumanEval 等代码生成基准测试中，通常报告 Pass@1、Pass@10、Pass@100。研究者通过比较这些值来评估模型在“一次通过”和“多次尝试”下的表现差异。

企业部署代码助手时，也会用 Pass@k 衡量产品对用户实际需求的满足程度。比如更关注 Pass@3，因为用户通常愿意尝试 3 次不同建议。

不要把 Pass@k 理解为“前 k 次中第几次成功”，它只关心至少一次成功，不关心排在哪个位置。也不等于“Top-k 准确性”，因为 Pass@k 是基于独立生成而非排序结果。

此外，Pass@k 与模型“多样性”紧密相关：如果模型生成结果高度重复，k 次尝试可能全是相似错误，Pass@k 不会提升；因此它同时隐含了对生成多样性的要求。

来源：AI 热词解释频道整理

Pass@k 代码生成评估指标大语言模型 HumanEval

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

大语言模型更新：2026-05-14

大语言模型是一种基于海量文本数据训练的人工智能模型，能够理解、生成和推理人类语言。它通过深度学习技术，学习语言的统计规律和语义关联，从而完成对话、写作、翻译等多种任务，是当前生成式AI浪潮的核心驱动力。

常查热词