AI提出的科研想法被人类实现并正式发表论文
直接阅读论文原文,核心干货与关键发现尽在其中。
Claude提出研究设想,由人类撰写并发表论文
翻阅“AI科学家”此前撰写的论文,可以找到Jeff Clune提及的那一篇。
《Grokking Through Compression: Unveiling Sudden Generalization via Minimal Description Length》——通过压缩机制实现Grokking,借助最小描述长度揭示突然泛化现象的内在规律。

根据描述,这篇论文的研究思路由Claude 3.5 Sonnet在第22次迭代时提出。核心内容探讨了神经网络的“最小描述长度”(MDL)与“grokking”现象(即模型经过长时间训练后突然实现泛化)之间的关联,从信息论视角切入,深入分析突然泛化的背后机制。
MDL可视为一种衡量模型复杂度与可压缩性的方法:模型既要贴合训练数据,又不能过于复杂导致过拟合。

具体而言,研究引入了一种基于权重剪枝的新型MDL估计技术,并将其应用于模块化算术、排列任务等多个数据集。实验揭示了一个显著的相关性:MDL降低与泛化能力提升几乎同步发生,MDL的转折点通常出现在“grokking”事件之前或与之重合。
此外,研究还观察到“grokking”与非“grokking”情景下MDL演变模式的差异:前者表现为MDL快速下降之后持续泛化。这些发现为理解“grokking”的信息论基础提供了重要线索,同时也表明在训练过程中监控MDL可提前预测即将发生的泛化。

了解原始论文之后,再来看看人类研究人员最新发表的内容有何不同。

概括来说,他们研究了神经网络在“grokking”现象中的复杂度动态——即网络从单纯记忆训练数据到实现完美泛化的过渡过程,并提出了一种基于失真压缩理论的新方法来衡量神经网络的复杂性。
作者之一Branton DeMoss表示,他们受到Sean Carroll和Scott Aaronson此前研究的启发。DeMoss团队将这一直觉形式化,并应用于神经网络,以追踪网络学习过程中抽象复杂度的变化。

展开来看,作者首先介绍了grokking现象:神经网络在长时间过度拟合训练数据后,突然具备泛化能力。图中x轴为优化步数,y轴为准确率;红线表示训练集准确率,绿线表示验证集准确率。可以看到,训练一个小型Transformer,在几百步后模型已完美拟合训练数据,但直到约10^5步时才出现泛化。

为解释这一现象,团队引入了一种基于失真压缩和Kolmogorov复杂性的新方法来衡量神经网络复杂度,并通过该框架追踪grokking过程中网络复杂度的动态变化。按照作者的比喻,这相当于“神经网络的JPEG压缩”。
研究结果表明,网络从记忆到泛化的过渡中,复杂度先上升,随后在泛化发生时下降。进一步研究发现,如果神经网络没有任何形式的正则化(防止过拟合的技术),它将无法从记忆过渡到泛化,而是无限期停留在记忆模式。
无正则化时的表现:

有正则化时的表现:

此外,作者指出传统的复杂度评判标准(如参数数量和权重范数)并不能准确描述模型复杂性,因为它们忽略了训练过程中的动态变化。他们采用最小描述长度(MDL)原则和Kolmogorov复杂度来定义并近似复杂性,并通过实验验证了这一方法,强调了简单模型在数据压缩方面的优势。最终,研究表明理解复杂度变化对预测模型泛化能力至关重要。

更多细节可查阅原始论文。可以看到,一个由AI最初提出的研究想法,最终由人类完成了更细致的论证与深化。有网友分析指出,AI撰写的论文在实验结果方面不如人类研究员的成果全面。

此前撰写“AI科学家”总论文的共同一作Cong Lu也表示:

顺便提及,在Sakana AI公布“AI科学家独立生成10篇学术论文”的消息后,公司于9月份获得了2亿美元的A轮融资,英伟达也参与其中。总而言之,AI未来不仅能独立撰写论文,还能与人类协作分工,共同推进研究。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
RAG四标融合企业知识资产体系四库协同GEO优化实践
生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指
一个普通上班人分享WorkBuddy使用心得与真实体验
前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不
AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓
别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。
GEO优化深度解析:AI偏好FAQ还是长文内容?
在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-01 17:42
2026-07-01 17:42
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

