当前位置: 首页
AI
GPT之父破解哈萨比斯难题:知识止于1930年的AI模型如何应对

GPT之父破解哈萨比斯难题:知识止于1930年的AI模型如何应对

热心网友 时间:2026-05-17
转载

年初,DeepMind创始人德米斯·哈萨比斯提出了一个堪称“硬核”的AGI判定标准:一个训练数据截止到1911年的模型,能否自行推导出爱因斯坦在1915年提出的广义相对论?这听起来像是一个思想实验,但没想到,真有人动手去尝试了,而且牵头者之一,正是“GPT之父”亚历克·拉德福德。

最近,拉德福德与“神经常微分方程”提出者之一、陈天琦的导师大卫·杜文瑙,以及量化专家尼克·莱文,共同启动了一个有趣的项目。他们用1931年以前的全部英文数据,训练了一个130亿参数的模型,命名为“Talkie-1930”。这个模型被彻底切断了与现代知识的联系,成了一个纯粹的“时间胶囊”。

这为研究者提供了一个难得的“纯净”参照系。当你想测试一个AI模型究竟是真正理解了某种能力,还是仅仅在复述训练数据中的答案时,Talkie-1930理论上可以给出诚实的反馈。对于哈萨比斯提出的那个宏大问题,这无疑是一个绝佳的探索起点。

来自1930年的模型,有什么用?

Talkie的训练数据全部来自1931年以前的公共领域英文文本,包括书籍、报纸、期刊、专利和法律文书,总计2600亿个token。选择这个时间点,主要是因为在美国,此前出版的作品已进入公共领域,可以合法使用。

模型训练完成后,研究团队做了一件颇具玩味的事:他们开设了一个24小时直播频道,让Claude Sonnet 4.6全天候地与Talkie-1930聊天,探索这位“古人”的知识边界。对话记录完全公开,任何人都可以一探究竟。

当然,你也可以亲自去和它聊两句。从一些简单的测试来看,它的回答确实带着浓厚的时代印记。

不过,比具体表现更有意思的,是这项研究背后的深层动机。研究者提出了一个核心问题:一个只活在过去的模型,能在多大程度上“预感”到未来?

为了量化这一点,他们从《纽约时报》的“历史上的今天”栏目中提取了近5000条历史事件描述,然后测量这些描述对Talkie而言的“惊讶度”——用信息论的话说,就是每字节文本的困惑度。结果符合预期:对于1930年之前的事件,Talkie并不感到意外;而1930年之后的事件,其惊讶度曲线明显攀升,在五六十年代达到顶峰,之后趋于平缓。

这套方法背后,隐藏着更宏大的设想。研究者们引用了哈萨比斯的问题,并列举了类似案例:西科斯基的直升机专利(1935年)、图灵关于可计算数的论文(1936年)、卡尔森的静电复印专利(1942年)——这些都是Talkie“理论上”无法知晓的知识。但如果模型足够庞大、理解足够深刻,它能否仅凭对已有知识的推演,自行触及这些未来的思想?这个问题目前尚无答案,但足以引发深思。

第二个动机,直指当前大模型评估的核心痛点:数据污染问题。

评估模型能力时,一个长期困扰研究者的难题是:你如何确定模型是真的“会”,而不是在训练数据里恰好见过这道题的答案?由于现代模型的训练数据规模过于庞大,这个问题几乎无解。

Talkie天然绕开了这个困境。它完全不知道Python是什么,也从未见过任何一行现代代码。于是,研究者用它进行了HumanEval标准编程测试。他们给Talkie随机展示几个Python函数作为示例,然后要求它编写一个新函数,并统计其在100次尝试中至少成功一次的比例。

结果是:Talkie确实能学。随着模型规模的扩大,它在这项任务上的表现会缓慢但稳定地提升。

当然,与使用现代网页数据训练的同等规模模型相比,Talkie仍有巨大差距。而且,它答对的题目主要分两类:要么是极其简单的单行程序,要么是对示例程序进行小幅修改。研究者特别提到一个旋转密码解码函数的例子:示例给出了编码函数,Talkie似乎理解了“逆操作”的抽象概念,将加号改为减号,仅此一字之差,便得到了正确答案。这暗示模型可能具备某种程度的抽象理解,而非纯粹的模仿。

一个对数字计算机一无所知的模型,依然能从示例中摸索出编程的逻辑。这个发现让研究者觉得,这条路值得继续探索。

第三个动机,触及了当前大模型研究的一个根本性隐忧:数据多样性的缺失。

当今所有主流大模型,无论GPT、Claude还是Gemini,其训练数据最终都指向同一个源头:互联网。无论是直接爬取、知识蒸馏还是合成数据,本质上都是同一片信息海洋的产物。这就引出了一个严肃的问题:我们自以为在研究“语言模型的普遍规律”,但实际上,研究的会不会只是“训练在互联网数据上的模型”的特殊性质?这些模型在气质、能力和行为倾向上的相似性,究竟有多少源于人类语言与文化的共性,又有多少仅仅是因为“喝了同一口井里的水”?

Talkie提供了一个宝贵的对照组。通过比较它与现代模型的异同,研究者希望能剥离出哪些特征是语言模型的普遍属性,哪些是“互联网训练”带来的特有产物。

为了更直观地衡量Talkie的能力,研究者还专门训练了一个“现代孪生”模型——架构完全相同,只是将训练数据换成了现代网页数据集FineWeb。两个模型在语言理解、数字计算和知识掌握三个维度上进行了正面较量。

结果是Talkie全面落后。但研究者注意到了一个关键细节:测试集中有大量问题,对于一个只知道1930年以前世界的模型来说,本身就是“超纲”的——它没有理由知道那些事。当把这些题目过滤掉后,两个模型之间的差距大约缩小了一半。

在语言理解和数字计算这两个维度上,Talkie的表现与现代孪生模型已相当接近。研究者认为,剩余的差距很可能源于两个原因:一是历史文本的OCR识别质量较差,二是训练语料的主题分布与现代模型存在较大差异。

训练复古模型,没那么容易

训练一个真正的“复古”模型,远没有听起来那么简单。

最棘手的问题叫做“时间泄漏”。训练数据的截止日期是1930年,但“1930年以前出版”并不等于“内容只涉及1930年以前的事”。一本1920年的书,如果后来重版,编辑可能添加了现代的序言;一份报纸的数字化档案,可能附带着整理者撰写的当代注释。这些内容一旦混入训练集,模型就会在不该知道的地方突然“开窍”。

早期的70亿参数版本就出现过这种状况——当被问及1936年谁是美国总统、签署了哪些重要立法时,它不假思索地答出了罗斯福和新政的细节,甚至还提到了联合国和德国的战后分裂。一个理应只活在1930年的模型,不知从哪条缝隙里窥见了后来的世界。

为此,研究者开发了一套基于n-gram的异常词检测分类器来过滤训练数据,但他们也承认这套方法并不完美。130亿参数的Talkie版本,依然对二战后的某些事件存在模糊的感知。如何彻底堵住这条时间裂缝,仍是一个悬而未决的问题。

另一个麻烦是数据质量。1930年没有数字出版,所有文本都需从纸质原件扫描、识别。传统的OCR系统对付干净的印刷品尚可,但面对版式复杂或保存不善的旧书,识别结果往往惨不忍睹——字母错位、段落混乱、符号乱入。研究者做过对照实验:同样的训练量,使用传统OCR转录文本训练出的模型,性能只有人工转录版本的30%。经过一些正则清洗后,能回升到70%,但差距依然显著。

目前,他们正在开发一套专门针对历史文献的OCR系统,希望能补上这个质量缺口。

还有一个挑战在于训练后的“对齐”。现代大模型的指令微调,依赖于大量人工标注的对话数据,但这些数据都带着浓厚的现代世界气息和预设。用它们来微调Talkie,就像把一位维多利亚时代的绅士送去参加企业培训,出来之后满口都是PPT腔调。早期版本的Talkie在强化学习后,有段时间回答全是列表和要点,完全不像一个1930年代的人。

为了解决这个问题,研究者从历史文本本身入手,利用礼仪手册、书信范文、烹饪食谱、百科全书这类结构规整的旧书,生成指令-回复对,从头构建了一套后训练流程。他们让Claude Opus 4.6扮演用户,Talkie扮演助手,生成多轮对话,再用Claude Sonnet 4.6作为裁判,为Talkie的回答打分。训练开始时,裁判平均给2分(满分5分),结束时已升至3.4分。

当然,他们也坦承,用现代AI做裁判,本身就是一种“时代污染”。彻底干净的做法,应该用Talkie的基础模型来评价Talkie的对话——让自己审判自己,完全活在1930年的逻辑里。这是他们下一步希望尝试的方向。

目前,研究团队正在训练一个GPT-3级别的更大模型,并计划在今年夏季发布。初步估算表明,他们可以将历史文本语料库扩展到超过1万亿个token,这足以创建一个性能接近GPT-3.5级别的模型——其功能或许能与最初的ChatGPT相媲美。这个来自过去的“时间胶囊”,正在试图告诉我们,关于智能本质的更多秘密。

来源:https://www.163.com/dy/article/KRP1KKBC0511AQHO.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
HermesAgent数据异常检测实战:K均值聚类算法详解

HermesAgent数据异常检测实战:K均值聚类算法详解

在时序数据异常检测任务中,直接应用经典K均值算法常面临诸多挑战:原始信号噪声干扰、聚类边界模糊,导致算法难以稳定识别真实离群模式。这些问题往往源于特征空间适配性、初始质心敏感性及距离度量方式等核心环节。 若您正面临类似困境,无需担忧。一套经过实践验证的优化方案,可系统性提升K均值在复杂时序场景下的鲁

时间:2026-05-17 17:39
国产DeepSeek V4能力强大价格实惠真香体验

国产DeepSeek V4能力强大价格实惠真香体验

四月底的AI行业迎来重磅消息,DeepSeek接连发布多项重大更新。4月24日,V4系列模型正式发布,包含V4-Pro和V4-Flash两个版本。次日(4月25日)晚间,V4-Pro即开启限时2 5折优惠。紧接着在4月26日,官方进一步宣布:全系列模型的输入缓存命中价格永久降至首发价的十分之一,且V

时间:2026-05-17 17:39
Claude代码助手使用入门与实战教程

Claude代码助手使用入门与实战教程

Claude Code的诞生,标志着AI工具从“对话应答”迈入了“自主执行”的新纪元。简而言之,它能将您的自然语言指令,直接转化为计算机上的具体操作。其高级能力更在于,可以协调多个智能体,如同一个专业团队般并行处理复杂项目的不同模块。 Claude Code是一款在终端中运行的AI智能体工具。“终端

时间:2026-05-17 17:08
Perplexity AI 如何关闭图片生成功能

Perplexity AI 如何关闭图片生成功能

如果你在使用Perplexity AI时,希望它专注于文本对话而不再自动响应绘图指令,可以通过关闭后台的实验性图像生成功能来实现。该功能默认处于禁用状态,但若被意外或手动开启,AI在识别到特定关键词时便会尝试生成图像。按照以下步骤操作,即可轻松关闭此功能,让AI回归纯文本交互模式。 一、进入账户设置

时间:2026-05-17 17:08
Claude Opus 4.7与Mythos谁才是最强AI模型深度解析

Claude Opus 4.7与Mythos谁才是最强AI模型深度解析

近日,人工智能研究公司Anthropic悄然发布了一款名为Claude Mythos(神话)的预览版模型。熟悉Claude系列的用户可能对Opus、Sonnet等公开模型较为熟悉,但Mythos截然不同。它比当前最先进的Claude Opus 4 7更为特殊,其能力之强,以至于Anthropic目前

时间:2026-05-17 17:08
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程