清华开源LongCite如何增强大模型溯源能力
清华团队开源LongCite方案,包含评测基准、45k监督微调数据集、两个开源模型及完整数据生成流程。通过分步生成QA与引用、句子级提取及过滤策略提升数据质量,在长文本精准引用任务上效果显著。
在长文本生成场景中,如何让大模型准确引用来源,一直是工业界落地时最常被追问的能力点。最近,清华大学团队开源了一套名为 LongCite 的方案,包含评测基准、45k 监督微调数据集、两个开源模型,以及一套完整的数据生成流程。整体来看,思路清晰、效果扎实,值得深入分析。

项目最值得关注的部分,其实是数据生成的 pipeline——如下图所示,分为三步加一步过滤。为什么没有一步到位?团队的解释是:分步走能让数据更干净——先获取答案,再为答案配上引用,这样引用和回答不会相互污染。
- QA 数据生成:让大模型基于给定的长篇文本,自动构建相关的问题与答案。
- 块级引用生成:对文本进行分块,为每个块打上引用标记,然后结合问题和答案,生成带有引用标注的 chunk 级 QA 数据。
- 句子级引用提取:从每个 chunk 的引用中,进一步抽取出支撑每个具体陈述的句子,形成更细粒度的引用。
- 过滤:剔除那些引用数量不足的样本,确保数据质量。
从数据分布上看,中文占比更高——这对国内私有化部署场景而言,恰好是个利好。整体效果相比基线有明显提升,尤其在需要精准引用的长文本任务上,表现稳健可靠。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:清华开源LongCite如何增强大模型溯源能力要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点利用Kimi撰写商务邮件时,先粘贴含收件人、事项及动作请求的初稿,再输入角色、场景、语气等明确指令,最后校验称谓、“请”字使用频率及时间金额等硬信息,经人工比对后发送,可提升邮件质量和效率。
AIGC技术正在席卷全球,金融行业自然也不能例外。从智能投顾到自动化报告,从个性化营销到风险控制,这波浪潮已经深入金融业务的各个关键环节。不少人觉得AIGC无非就是个效率工具,但更准确地说,它正在重新定义金融服务的创新逻辑与客户体验。不过,理想很丰满,现实却很骨感——很多从业者仍在困惑:这项技术到底
QoderWake脚本可在Windows、macOS、Linux间自动识别系统、处理路径差异并跳过临时文件,实现10秒内双向同步。编写时需确认环境,用绝对路径且避免全角字符或未转义空格。通过内置变量或动态拼接路径实现跨平台适配,并配置文件监控、30秒超时重试及冲突保留更新版本或生成副本的机制。
本地部署Qwen3-1 7B月成本约¥530,QoderCNPro+版API月费$99(6000Credits)。月调用≤2100次时本地更省钱;日均超80次深度诊断时API因节省人工审计成本更具优势。
- 日榜
- 周榜
- 月榜
热点快看
