AI论文写作时代来临东京大学警示幻觉问题需警惕

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI论文写作时代来临东京大学警示幻觉问题需警惕

热心网友时间：2026-05-14

转载

这项由东京大学主导的前沿研究，已于2026年4月1日正式发布于预印本平台arXiv，论文编号为arXiv:2604.01128v1。对AI学术写作与论文生成技术细节感兴趣的读者，可通过此编号查阅全文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

东京大学研究团队：AI写论文时代已来，但

如果告诉你，如今已有AI能够独立完成从选题构思、实验分析到全文撰写的完整学术论文流程，你会作何感想？这已非科幻场景，而是正在发生的技术现实。东京大学的研究团队近期完成了一项开创性评估，他们系统性地检验了AI撰写学术论文的综合能力与潜在缺陷。研究发现，AI确实能生成结构完整、语言规范的论文，但其表现犹如一位才华横溢却偶有虚构的作家——叙事流畅引人入胜，却总在不经意间掺杂凭空捏造的细节。

为进行这项系统性评估，团队开发了一套名为“论文重构评估”（PaperRecon）的创新方法，可理解为对AI进行了一场严格的“闭卷考试”。具体流程是：先将一篇已发表的高质量论文“解构”为核心要素，如同将经典菜肴还原为关键食谱；随后，仅将这些简化信息输入AI，令其尝试“复现”出完整的论文原貌。通过对比AI生成内容与原始文献，即可精准评估其写作能力与问题所在。

此方法的精妙之处在于其双维度评价体系。第一个维度是“表现力”，如同评估演讲者的表达与台风，考察AI能否准确传达论文的核心论点、逻辑脉络并符合学术写作规范。第二个维度是“真实性”，类似新闻编辑室的事实核查流程，检验AI是否会无中生有，编造数据、曲解方法或添加原文不存在的内容。

一、AI写作能力的双面性：精彩表演背后的真相

研究团队将两个当前顶尖的AI写作系统——ClaudeCode和Codex——置于这套测试体系下。结果呈现出鲜明对比，仿佛观察两位风格迥异的辩手同台竞技。

ClaudeCode在“表现力”维度展现了令人印象深刻的高水准。它如同一位经验丰富的学术写手，能娴熟地组织论文架构，得体运用学术术语，阐述复杂概念时也显得游刃有余。具体数据显示，其表现质量评分达到3.86分（满分5分），这意味着它生成的论文在多数方面都能较好地复现原文精髓。更值得注意的是，随着底层模型从Claude Sonnet 4升级至4.6版本，此项能力呈现持续进步趋势。

然而，当深入检视这些看似优秀的文本时，一个关键问题浮出水面。ClaudeCode虽然文笔出众，却像一位习惯性添油加醋的叙述者，平均每篇论文会夹杂超过10处明显的事实错误或“幻觉”。这些幻觉如同真实故事中混入的虚构情节，可能表现为编造的数据、错误的方法描述或原文根本不存在的实验结果。

相比之下，Codex则呈现出另一种特质。如果说ClaudeCode是位口若悬河但偶有失言的演说家，那么Codex则更像一位严谨保守的学者。它的表现质量评分相对较低，在3.26到3.59分之间，意味着在论文组织和表达流畅度上尚有提升空间。但Codex有一个突出优势：其输出非常“诚实”，平均每篇论文仅产生约3个幻觉，远低于ClaudeCode。这揭示了AI系统设计中的一个根本性权衡——表达能力的增强，有时会以牺牲事实准确性为代价。

二、测试方法的巧思：如何给AI作者打分

东京大学团队设计的这套评估体系，堪称是为AI写作能力定制的“标准化考试”。整个过程环环相扣，科学严谨。

首先是“素材准备阶段”。研究人员会将一篇完整论文“解构”为几个基本组件，如同保留菜谱的核心食材与步骤，而去掉装饰性细节。具体包括提取约463个单词的核心观点摘要、关键图表、参考文献列表及相关代码。目的是确保AI获得的信息既足以支撑高质量重构，又不至于因过于详尽而失去挑战性。

接着进入“重构写作阶段”。AI需要基于这些简化素材，重新创作出完整的学术论文。这好比给厨师基本食材和简要说明，要求其复现一道复杂菜肴。此过程全面考验AI的多重能力：理解学术概念、组织文章结构、运用恰当术语以及保持逻辑连贯。

最后是“多维评估阶段”，这也是方法最具创新性的部分。团队并未简单给出一个总分，而是设计了两套独立的评估体系，如同从不同角度拍摄物体以获得完整认知。

表现力评估采用“标准清单”法，类似餐厅评级时检查服务、环境、菜品等各项指标。研究人员会为每篇原始论文预先制定详细的评分标准，明确列出各章节应包含的关键要素。例如，摘要需清晰阐明研究问题、方法创新与主要发现；方法部分需详述技术路线与关键算法；实验部分需涵盖数据集、评估指标与对比结果等。随后，逐一核对AI论文是否包含这些要素，并依据完成质量给出1-5分。

真实性评估则更接近专业事实核查工作。研究人员会仔细梳理AI论文中的每一个具体陈述，特别是涉及数据、方法和结果的部分，并与原文逐项比对。他们将AI的陈述分为三类：“支持性”（原文有明确依据或可合理推导）、“中性”（原文未提及但属合理的一般性描述或补充）以及“矛盾性”（与原文事实明显冲突的错误信息）。最后一类正是重点关注的“幻觉”内容。

为确保评估准确性，团队还设计了两阶段验证机制。先由一个AI系统进行初步事实核查，标记所有可疑陈述；再由一个更强大的AI系统进行二次验证，过滤可能的误判，从而确保最终识别的幻觉是确凿的事实错误。

三、实验结果的启示：当AI遇到学术写作的挑战

通过在精心构建的PaperWrite-Bench基准（包含51篇2025年后顶级会议的论文）上的系统测试，研究揭示了当前AI写作系统的真实水平与局限。

在表现力方面，所有测试的AI系统都展现了可观的能力。即便是相对较弱的Codex，平均得分也达3.26分，意味着其重构的论文在大部分维度能达到“部分完成”到“基本完成”的水平。而表现最佳的ClaudeCode（配合Sonnet4.6模型）平均得分达3.86分，已非常接近“大部分完成”的标准。更值得注意的是，随着底层语言模型的迭代升级，这些得分呈现明显上升趋势，表明AI写作能力正在稳步提升。

从具体章节看，AI在不同类型内容上能力特点各异。摘要部分得分普遍最高，平均超4分，说明AI已很好掌握学术摘要的写作规范。相比之下，“相关工作”部分得分较低，平均在2.5-3分之间，反映出AI在梳理学术脉络、精准定位研究贡献方面仍有困难。这也不难理解，因为撰写相关工作需要对领域有深入理解和准确判断，而这正是当前AI的薄弱环节。

然而，转向幻觉检测时，结果变得复杂。ClaudeCode虽在表现力上出类拔萃，但其产生幻觉的频率也相当高。以ClaudeCode（Sonnet4.6）为例，平均每篇论文包含10.4个重大事实错误，遍布各章节，其中方法部分（4.7个）和实验部分（3.6个）是重灾区。这些幻觉常涉及关键技术细节、数据或实验结果，若未被察觉而采用，可能误导读者甚至影响后续研究。

Codex的表现形成鲜明对比。尽管其表现力得分较低，但在事实准确性上表现出色。特别是使用GPT-5.4模型的Codex，平均每篇论文仅产生3个重大幻觉，相比ClaudeCode减少了近70%。这种差异反映了不同AI系统在设计理念与训练策略上的根本区别。

另一个关键发现是，AI在不同研究领域的表现存在明显差异。自然语言处理（NLP）领域的论文重构质量最高，平均得分达3.77分，幻觉数量也相对较少（6.0个）。这可能因为NLP领域的研究更多基于概念与方法创新，较少涉及复杂数学公式与技术实现细节，更契合当前AI的能力特点。相比之下，计算机视觉和多媒体处理领域的论文重构难度更大，不仅表现得分较低，幻觉数量也更多。

四、技术细节：评估框架的精巧设计

东京大学团队在设计PaperRecon评估框架时，展现了工程般的精巧思维。整个系统如同一台精密检测仪器，每个组件都经过精心设计，以确保评估的公平与准确。

在论文重构的准备阶段，首要挑战是如何从完整论文中提取“恰到好处”的信息。信息过多会使测试失去挑战性，过少则可能导致AI无法完成合理重构。经反复实验，团队确定了标准化信息提取流程：使用GPT-5自动生成平均463个单词的研究概述文件，既包含论文核心思想与主要方法，又保留了足够的重构空间。

为确保信息质量，研究人员还对每个概述文件进行了人工审核与必要调整。这个过程如同编辑精选新闻摘要，需在简洁性与完整性间找到平衡。此外，他们还提供了论文的图表、参考文献（含摘要）及相关代码，为AI提供了多模态信息支撑。

在表现力评估的设计上，团队采用了“定制化标准清单”这一创新方法。他们没有使用一刀切的通用标准，而是为每篇测试论文量身定制评分规则，如同为不同比赛制定相应评判标准，以确保评估的公平与准确。

具体而言，对于每篇原始论文，研究人员先用GPT-5.4自动生成初步评分标准，再由团队成员人工审核完善。最终的标准平均包含10-15个具体评估点，覆盖从内容完整性到技术准确性的各个维度。例如，对于一篇图像识别论文，标准可能包括：“是否清楚说明了数据集的特点和规模”、“是否详细描述了神经网络架构”、“是否提供了与现有方法的对比结果”等。

在幻觉检测方面，团队设计了两阶段验证机制，如同法庭上的两轮审理，以确保判断准确。第一阶段使用GPT-5.4对AI论文中的每个具体陈述进行事实核查，将其分类为支持性、中性或矛盾性三类。此过程要求AI评判员具备很强的逻辑推理能力，不仅要识别明显事实错误，还要区分合理推论与不当臆测。

第二阶段则使用功能更强大的Claude Code进行复审，重点关注第一阶段标记为“矛盾性”的陈述。复审系统可访问原始论文的完整资源，包括LaTeX源码、图表和代码库，以进行更深入的事实核查。这种设计有效降低了误判可能，确保最终识别的幻觉是确凿的事实错误。

团队还进行了人工验证以确保自动评估的可靠性。他们随机抽取了97个被标记为“重大矛盾”的陈述，由研究人员逐一核查，结果发现96%确为真实幻觉。这一高准确率证明了自动评估系统的可靠性，也为大规模评估提供了技术基础。

五、现实意义：AI写作时代的机遇与挑战

这项研究的意义远超学术评估范畴，它为我们理解即将到来的AI写作时代提供了一个关键参考框架。正如汽车诞生初期，人们需了解其性能极限与安全隐患一样，我们现在也需要清晰认识AI写作系统的能力边界与潜在风险。

从积极面看，研究表明AI已具备相当强的学术写作能力。尤其在论文结构组织、语言表达和格式规范等方面，AI表现已达可用水平。这意味着AI可以成为研究人员的得力助手，提升写作效率，特别是在初稿生成、内容整理和语言润色等环节。对于非英语母语的研究者，这种助益尤为显著。

同时，研究还揭示了一个明确趋势：AI的写作能力正随着底层模型的升级而稳步提升。从Claude Sonnet 4到4.6，从GPT-5到5.4，每次模型更新都带来了明显的性能改进。这暗示着，在不久的将来，AI的学术写作能力可能达到更高水平，甚至在某些方面超越人类作者。

然而，研究也暴露了一个不容忽视的严重问题：幻觉现象的普遍存在。平均每篇AI论文包含3到10个重大事实错误，这个数字在学术研究的语境下是极其危险的。学术论文的价值很大程度上依赖于其事实准确性与可重复性，即便是少数几个关键错误，也可能导致整个研究结论失效。

更令人担忧的是，这些幻觉往往具有很强的迷惑性。它们并非明显的胡言乱语，而是看起来合理、听起来专业的错误信息。例如，AI可能会编造一个看似可信的数据，或错误描述某个算法的工作原理。这种“高质量”的错误信息更容易被读者接受，从而产生更大的误导作用。

研究还揭示了一个值得深思的权衡现象：表现力与真实性之间存在某种反比关系。写作能力更强、表达更流畅的AI系统往往更容易产生幻觉；而更保守、更注重准确性的系统则在表达能力上相对较弱。这种权衡反映了当前AI技术的一个根本性挑战：如何在保持创造性表达的同时，确保输出的可靠性。

对学术界而言，这项研究为制定AI使用规范提供了重要依据。许多顶级会议和期刊已开始思考如何应对AI写作的冲击，而本研究结果表明，简单的禁用或完全放开都非最佳选择。相反，学术界需要建立更精细的使用规范，例如要求明确标注AI使用情况、加强事实核查流程，或在特定环节限制AI的使用。

对普通研究人员来说，这项研究提供了使用AI写作工具的实用指南。结果表明，AI在某些任务上表现出色（如摘要写作、结构组织），而在其他任务上存在明显风险（如技术细节、数据报告）。明智的做法是充分利用AI的优势，同时对其输出保持审慎态度，特别是对涉及具体数据和技术细节的内容进行仔细核查。

六、未来展望：构建可信AI写作的新路径

这项研究不仅揭示了现状，更重要的是为未来发展指明了方向。正如早期计算机程序需要不断调试完善，AI写作系统也需在实践中持续改进，朝着更可靠、更实用的方向演进。

研究团队提出了几个有价值的改进思路。首先是开发更精细的控制机制，允许用户根据具体需求调整AI系统在表现力与准确性之间的权衡。如同调节汽车的驾驶模式，用户可根据不同场景选择“保守模式”（优先确保事实准确）或“创新模式”（更注重表达的丰富性与创造性）。

其次是建立更完善的事实核查机制。团队设计的两阶段验证方法已显示出良好效果，未来可进一步优化，甚至集成到AI写作系统的内部流程中。这样的系统如同内置了“事实检查员”的智能助手，能在生成内容的同时自动识别并标记潜在的事实错误。

第三个重要方向是提升AI系统对自身能力边界的认知。目前的AI系统往往“过度自信”，即使在不确定时也会给出看似确定的答案。未来的系统应学会表达不确定性，对于缺乏充分依据的陈述使用“可能”、“据推测”等限定语，或直接承认“该问题超出我的知识范围”。

此外，研究也为学术评估系统的发展提供了新思路。传统的同行评议体系可能需要适应AI写作时代的新挑战，例如开发专门的AI检测工具、建立更严格的事实核查流程，或设计针对AI生成内容的评估标准。PaperRecon框架本身就是一个范例，它可能成为未来学术评估工具箱中的重要组成部分。

从更宏观的视角看，这项研究也为AI安全与可信AI的发展提供了有价值的案例。幻觉问题不仅存在于学术写作，在新闻报道、法律文书、医疗诊断等高风险场景中同样可能出现。研究团队开发的评估方法与发现的规律，对这些领域的AI应用也具有指导意义。

归根结底，这项研究让我们看到了AI写作技术的巨大潜力，也清醒认识了其关键短板。AI确实已能写出结构合理、表达流畅的学术论文，但它尚不是一个完全可靠的写作伙伴。如同使用任何强大工具都需保持谨慎，在AI写作时代，我们既要充分利用技术便利，也须时刻警惕潜在风险。

这项研究提供了一个核心启示：技术进步的意义不仅在于能力的提升，更在于我们对这种能力的深入理解与合理运用。只有在充分认知AI写作系统能力边界的基础上，才能真正发挥其价值，同时规避潜在风险。对于即将全面迈入AI时代的我们而言，这样的认知或许比技术本身更为珍贵。

Q&A

Q1：PaperRecon评估方法是如何工作的？

A：PaperRecon如同为AI安排了一场特殊的“闭卷考试”。研究人员先将一篇完整学术论文“拆解”为基本要素（核心观点总结、图表、参考文献等），然后要求AI依据这些简化信息重新撰写完整论文。最后，通过对比AI重构的论文与原文，从表现力和真实性两个维度，评估其写作能力与潜在问题。

Q2：ClaudeCode和Codex在写论文方面有什么区别？

A：ClaudeCode如同一位能说会道但偶有失言的演说家，表现质量评分高达3.86分，但平均每篇论文包含超过10个事实错误。Codex则更像一位严谨保守的学者，表现质量相对较低（3.26-3.59分），但非常“诚实”，平均每篇论文仅产生约3个幻觉内容。两者体现了表达能力与事实准确性之间的权衡关系。

Q3：AI写论文的幻觉问题有多严重？

A：问题相当严重且具有迷惑性。研究发现AI论文平均包含3-10个重大事实错误，这些错误并非明显的胡言乱语，而是看起来合理、听起来专业的错误信息，例如编造的数据或错误的方法描述。在学术研究中，即便只有少数关键错误，也可能导致整个研究结论失效，因此需要格外警惕。

来源:https://www.techwalker.com/2026/0410/3183649.shtml

上一篇：微软AI内存优化新突破：模型更聪明却无需额外内存消耗

下一篇：蚂蚁集团发布时序预测新基准揭示AI预测真实能力