MBPP：代码生成模型最常用的入门级 Python 编程测试集

本次查询MBPPAI 热词解释结果

中文解释大部分基础 Python 编程数据集

热词类型基准测试数据集

常见场景AI 代码生成模型的性能评估

一句话解释

MBPP（Mostly Basic Python Programming）是 Google 于 2021 年发布的一个代码生成基准数据集，包含 974 道 Python 编程题，每道题给出任务描述和测试用例，用来检测 AI 模型是否能根据自然语言描述写出正确的函数代码。

为什么会被关注

随着 GPT-3、Codex 等大模型能生成代码，业界需要统一、可复现的评测方法。MBPP 提供了大量人工验证过的、难度适中的题目，既能快速检验模型的基础编程能力，又避免被复杂算法题干扰，因此成为各大模型论文中必列的数据集之一。

核心逻辑

MBPP 的每一题都包含三部分：任务描述（自然语言）、函数签名和 3-5 个输入输出示例。评测时，模型根据描述生成函数，然后用给定的测试用例验证输出是否匹配。最终用「通过率」（pass@k）作为指标，K 代表允许多少次尝试。

常见场景

AI 研究者用它对比不同模型（如 CodeLlama、StarCoder）的编程能力；企业选型时也参考 MBPP 得分来判断代码助手是否靠谱；自主开发者可用 MBPP 题目手工测试 ChatGPT 或其他工具的正确率，快速了解其编码水平。

容易混淆的点

容易把 MBPP 与 HumanEval 混淆：HumanEval 题目更偏算法和逻辑，且题量只有 164 题；而 MBPP 侧重基础语法、库函数调用，题量更大。另一个常见误区是认为 MBPP 能完全代表代码生成能力，实际上它不包含多文件、架构设计或真实项目场景。

来源：AI 热词解释频道整理

MBPP HumanEval 代码生成基准测试 Python编程

上一篇：HumanEval：代码生成模型评估基准

下一篇：SWE-bench：用真实GitHub Issue考验大模型写代码的能力

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

Codex更新：2026-05-14

Codex：让AI理解并生成代码的“编程大脑”

Codex是OpenAI基于GPT-3微调训练的大型语言模型，专门用于理解和生成编程代码。它能将自然语言指令转化为多种编程语言的代码，是AI辅助编程领域的里程碑式产品，极大地提升了开发者的效率。

HumanEval更新：2026-06-02

HumanEval：代码生成模型评估基准

HumanEval 是 OpenAI 发布的代码生成模型评测数据集，包含 164 个手工编写的 Python 编程问题，每个问题都配有函数签名、文档字符串和多个测试用例。它旨在衡量大语言模型（如 GPT-3.5/4、Codex）根据自然语言描述生成正确代码的能力，已成为业界评估编程类 AI 的标准化工具。与自动化的基准不同，HumanEval 的题目设计更贴近真实编码场景，能有效筛选出模型在逻辑、边界条件和算法上的优劣。

常查热词

大语言模型大语言模型：AI的“语言大脑”，如何理解与生成人类语言？ 大模型大模型：AI的“全能大脑”，为何能掀起技术革命？ RAGRAG：让大模型学会“翻书”的检索增强技术 智能体智能体是什么？从AI助手到自主决策的进化 AIGCAIGC：当人工智能成为内容创作者 扩散模型扩散模型：从噪声中“生长”出图像的AI魔法 向量数据库向量数据库：让AI“理解”非结构化数据的关键底座 开源大模型开源大模型：AI民主化的新引擎