清华开源LongCite如何增强大模型溯源能力

AI热点日报时间：2026-05-30

热点解读

清华团队开源LongCite方案，包含评测基准、45k监督微调数据集、两个开源模型及完整数据生成流程。通过分步生成QA与引用、句子级提取及过滤策略提升数据质量，在长文本精准引用任务上效果显著。

在长文本生成场景中，如何让大模型准确引用来源，一直是工业界落地时最常被追问的能力点。最近，清华大学团队开源了一套名为 LongCite 的方案，包含评测基准、45k 监督微调数据集、两个开源模型，以及一套完整的数据生成流程。整体来看，思路清晰、效果扎实，值得深入分析。

清华开源LongCite，如何提高大模型的溯源能力？

数据集：LongCite-45k
模型：LongCite-glm4-9b、LongCite-llama3.1-8b
代码：GitHub

项目最值得关注的部分，其实是数据生成的 pipeline——如下图所示，分为三步加一步过滤。为什么没有一步到位？团队的解释是：分步走能让数据更干净——先获取答案，再为答案配上引用，这样引用和回答不会相互污染。

QA 数据生成：让大模型基于给定的长篇文本，自动构建相关的问题与答案。
块级引用生成：对文本进行分块，为每个块打上引用标记，然后结合问题和答案，生成带有引用标注的 chunk 级 QA 数据。
句子级引用提取：从每个 chunk 的引用中，进一步抽取出支撑每个具体陈述的句子，形成更细粒度的引用。
过滤：剔除那些引用数量不足的样本，确保数据质量。

从数据分布上看，中文占比更高——这对国内私有化部署场景而言，恰好是个利好。整体效果相比基线有明显提升，尤其在需要精准引用的长文本任务上，表现稳健可靠。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：清华开源LongCite如何增强大模型溯源能力要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2024090715432.html

ai 人工智能

上一篇：QoderWake免费Token获取渠道合法合规降低数字员工成本

下一篇：Vidu视频生成风格选择详细指南与类型介绍

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

相关热点

AI热点2026-05-30 12:26

利用Kimi文本润色技术高效撰写商业邮件模板

利用Kimi撰写商务邮件时，先粘贴含收件人、事项及动作请求的初稿，再输入角色、场景、语气等明确指令，最后校验称谓、“请”字使用频率及时间金额等硬信息，经人工比对后发送，可提升邮件质量和效率。

AI热点2026-05-30 12:24

人工智能交互应用师专业培训课程

AIGC技术正在席卷全球，金融行业自然也不能例外。从智能投顾到自动化报告，从个性化营销到风险控制，这波浪潮已经深入金融业务的各个关键环节。不少人觉得AIGC无非就是个效率工具，但更准确地说，它正在重新定义金融服务的创新逻辑与客户体验。不过，理想很丰满，现实却很骨感——很多从业者仍在困惑：这项技术到底

AI热点2026-05-30 12:23

QoderWake脚本编写指南：跨平台文件同步实战教程

QoderWake脚本可在Windows、macOS、Linux间自动识别系统、处理路径差异并跳过临时文件，实现10秒内双向同步。编写时需确认环境，用绝对路径且避免全角字符或未转义空格。通过内置变量或动态拼接路径实现跨平台适配，并配置文件监控、30秒超时重试及冲突保留更新版本或生成副本的机制。

AI热点2026-05-30 12:22

Qoder大模型收费标准对比：开源版与企业版API性价比分析

本地部署Qwen3-1 7B月成本约¥530，QoderCNPro+版API月费$99（6000Credits）。月调用≤2100次时本地更省钱；日均超80次深度诊断时API因节省人工审计成本更具优势。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周利用Kimi文本润色技术高效撰写商业邮件模板 02 / 本周人工智能交互应用师专业培训课程 03 / 本周QoderWake脚本编写指南：跨平台文件同步实战教程 04 / 本周Qoder大模型收费标准对比：开源版与企业版API性价比分析 05 / 本周复旦联合通义万相提出扩散模型在线策略蒸馏新范式

01 / 本月利用Kimi文本润色技术高效撰写商业邮件模板 02 / 本月人工智能交互应用师专业培训课程 03 / 本月QoderWake脚本编写指南：跨平台文件同步实战教程 04 / 本月Qoder大模型收费标准对比：开源版与企业版API性价比分析 05 / 本月复旦联合通义万相提出扩散模型在线策略蒸馏新范式

热点快看

05-30 12:26利用Kimi文本润色技术高效撰写商业邮件模板 05-30 12:24人工智能交互应用师专业培训课程 05-30 12:23QoderWake脚本编写指南：跨平台文件同步实战教程 05-30 12:22Qoder大模型收费标准对比：开源版与企业版API性价比分析 05-30 12:20复旦联合通义万相提出扩散模型在线策略蒸馏新范式

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别