面包屑图标 当前位置: 首页
AI热词解释
热词解释详情

幻觉率:大模型说胡话的概率有多高?

本次查询幻觉率AI 热词解释结果
中文解释幻觉率
热词类型技术指标
常见场景在评估大模型可靠性 / 选择模型用于事实性任务(如客服 / 医疗问答 / 法律咨询)时使用幻觉率来对比不同模型或同一模型不同版本的性能。
AI 热词频道
AI 热词频道更新时间:2026-06-02

幻觉率是衡量大模型生成不真实、无依据或自相矛盾内容比例的指标,它揭示了AI在回答事实性问题时的“说谎”倾向。理解幻觉率有助于评估模型可信度、选择应用场景并采取缓解措施。

一句话解释

幻觉率指大模型生成的回答中,包含无根据、与已知事实矛盾或凭空编造信息的比例。它是评估模型输出真实性的量化指标,通常由人工评估或自动化检测工具统计得出。

为什么会被关注

随着大模型在搜索、客服、内容生成等场景落地,用户发现模型常自信地输出错误答案。高幻觉率的模型可能误导医疗、法律等高风险决策,导致严重的信任危机。企业需在部署前量化此风险。

2023年以来,多家研究机构发布了幻觉率排行榜,促使行业把减少幻觉作为模型优化的核心方向。用户也会在对比服务时参考该指标,选择更可靠的应用。

核心逻辑

大模型本质上是基于概率的词序列预测器,而非事实数据库。当训练数据缺失或出现误导模式时,模型会“自由发挥”填充空白,产生看似合理但虚假的语句。

评测幻觉率通常构建一个包含事实判断的问答集(如基于维基百科),计算模型答错的条目占比。更精细的方法还区分“事实错误”“矛盾”“无依据”等子类型。

常见场景

在聊天机器人中,用户问询最新新闻或冷门知识时,模型常编造日期、人物或数据。例如询问“2024年诺贝尔文学奖得主”,模型可能给出正确获奖者但虚构了颁奖理由。

在代码生成中,模型推荐不存在的API函数或过时库版本;在文档摘要中,可能添加原文未提及的结论。企业做AI审计时会重点测试这些场景的幻觉率。

容易混淆的点

幻觉率 ≠ 错误率。错误率涵盖模型输出与标准答案的所有偏差,包括逻辑错误、格式问题;幻觉率特指模型凭空捏造信息,例如虚构人物、事件或数据。

低困惑度不代表低幻觉率。困惑度测的是模型预测的流畅度,而幻觉率衡量事实准确性。一个流畅的谎言仍然流畅,却可能产生高幻觉。评测时需分开看待。

来源:AI 热词解释频道整理
幻觉率 事实一致性 模型校准 对抗性验证 知识边缘
上一篇:测试泄漏
下一篇:可验证性
内容声明

本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。

相关热词
Model Registry更新:2026-06-02
什么是 Model Registry?模型注册表全解析

Model Registry(模型注册表)是集中存储、版本化和管理机器学习模型元数据的系统,帮助团队跟踪模型从训练到生产的全生命周期,确保模型的可重复性、可审计性和可部署性。

人在回路更新:2026-06-02
人在回路:让 AI 学会“交作业前先找人改改”

人在回路(Human-in-the-Loop)是一种将人类判断与机器学习模型结合的训练与部署范式。它不追求全自动,而是在关键节点引入人工审核、标注或反馈,从而提高模型准确性、鲁棒性和可信度,尤其适合高风险或数据稀疏的场景。

工具权限控制更新:2026-06-02
工具权限控制:守护AI工具安全的隐形围墙

工具权限控制是指对AI工具、应用或系统的访问与操作进行精细化管理的机制。它确保只有经过授权的用户或服务能够使用特定功能、访问敏感数据,是防止滥用、数据泄露和越权操作的核心防线。

沙盒执行更新:2026-06-02
沙盒执行

沙盒执行是一种在隔离环境中运行代码或程序的技术,防止其对主系统、数据或其他应用造成任何影响。它广泛用于网络安全、软件开发测试、浏览器安全等领域,保障用户设备不受恶意软件或未知行为侵害。

智能体沙箱更新:2026-06-02
智能体沙箱:在隔离环境中安全测试AI代理行为的核心工具

智能体沙箱是一种隔离的、可交互的AI代理测试环境,允许开发者在不影响生产系统或造成意外后果的前提下,安全地实验、调试和验证智能体的决策逻辑、工具调用和任务执行能力。它类似于软件工程中的沙箱概念,但专为AI代理(Agent)设计,重点关注行为安全、边界测试和交互验证。

智能体记忆库更新:2026-06-02
智能体记忆库

智能体记忆库是AI智能体存储、管理历史交互数据的系统,使AI能在多轮对话中保持上下文,并形成用户画像。它类似于给AI配上“大脑存档”,实现个性化与连续性交互。