当前位置: 首页
科技数码
卡帕西4小时重现ChatGPT,仅用8000行代码开源爆火

卡帕西4小时重现ChatGPT,仅用8000行代码开源爆火

热心网友 时间:2025-12-07
转载

10月14日凌晨,AI领域知名专家安德烈·卡帕西(Andrej Karpathy)发布了名为"nanoc h a t"的新开源项目,他形容这是自己写过的"最不受约束"的疯狂项目之一。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

与早期仅涵盖预训练的nanoGPT不同,新的nanoc h a t是一个极简的、从零开始的全栈训练/推理流程,通过依赖项最少的单一代码库实现了一个简易版ChatGPT的完整构建。

nanoc h a t的使用流程非常简单:你只需要租用云GPU服务器,运行单个脚本,最快4小时后就能在类似ChatGPT的网页界面中与自己训练的大语言模型(LLM)对话。

nanoc h a t是什么?

从卡帕西提供的原理来看,Nanoc h a t打包了从零开始制造一个Chatbot所需的所有步骤和工具,这其中包括:

1.数据准备:从原始网络文本(如FineWeb数据集)开始,创建分词器(tokenizer),把海量文本变成模型能理解的数字。

2.模型预训练:在大规模数据上训练一个基础的Transformer模型,让它学习语言的语法、事实和基本推理能力。这是最耗时、最核心的一步。

3.对齐微调 :

a.指令微调 :使用高质量的问答、对话数据,教模型如何像一个助手一样遵循指令、与人对话。 b.强化学习 :(可选阶段)通过奖励和惩罚,进一步提升模型在特定任务(如数学解题)上的表现。

4.模型推理:提供了一个高效的引擎,让你可以在命令行或一个类似ChatGPT的网页界面中,与你亲手训练出来的模型进行实时对话。

5.评估 (训练完成后,系统会自动生成一份详细的“成绩单”(报告),展示模型在多个标准测试(如数学、代码、常识推理)上的表现。

Karpathy之前的nanoGPT项目主要关注第2步:模型预训练。它是一个极简的GPT模型训练代码,目的是为了教学,让大家理解大模型是怎么训练出来的。

而nanoc h a t则是一个全栈(Full-Stack)项目,它不仅包含了nanoGPT的预训练部分,还补全了之后的所有关键步骤(指令微调、强化学习、推理、UI界面),最终交付一个可以实际对话的聊天机器人。

而实现这一切,只靠着卡帕西手敲的8000行代码。

卡帕西做这个nanoc h a t的意义是什么呢?

首先是教育和学习,它是目前理解“如何从零构建一个ChatGPT”的最佳学习资料。它让普通开发者和研究者有机会用相对低廉的成本亲手“烹饪”出一个属于自己的小型聊天模型,并完整地体验从一堆原始文本到一个智能对话助手的全过程。

其次是提供一个研究和实验平台。为研究人员提供了一个轻量级、可控、可复现的实验平台。他们可以在这个框架上快速测试新的模型架构、训练方法或对齐技术,而不必动用昂贵的大规模计算资源。

最后,X上的网友还发掘了它的新可能,他认为这套系统完全可以成为硬件评估的新基准。

这真是太棒了。这应该成为硬件评估的新基准——我们只需报告一个有序三元组:

●端到端训练总成本(美元)

●端到端训练总耗时(分钟)

●在特定测试集上的综合性能表现

而且整个过程都具备高度可复现性。

100美元,从头训练一个AI

那这个Nanoc h a t到底能多省钱?

●仅需约100美元(在8XH100节点上训练约4小时),你就能训练出一个小型ChatGPT克隆版,可以进行基本对话,创作故事诗歌,回答简单问题

(在网页界面中,显示的是一个耗时4小时、花费100美元的nanoc h a t模型进行对话。已经可以写诗了。)

(nanoc h a t报告卡片中展示了这次100美元“速通”训练所生成的部分总结性指标。整体效果很不错。)

●训练约12小时即可在CORE指标上超越GPT-2

●如果将预算提升到约1000美元(训练41.6小时),模型会变得更加连贯,能够解决简单的数学和编程问题,并通过多项选择题测试。例如,一个深度为30的模型经过24小时训练(计算量相当于GPT-3 Small 125M或GPT-3的1/1000),在MMLU上能达到40多分,在ARC-Easy上达到70多分,在GSM8K上达到20多分。

卡帕西亲自揭秘背后技术

在X平台上,卡帕西和网友展开问答对话,公开了nanoc h a t的幕后开发详情和相关技术。

以下为问答精选:

问:这个模型的训练/基础架构是基于什么样的模型设计?

卡帕西:nanoc h a t的模型架构基本上与Meta Llama模型类似,但进行了一些简化,并吸收了一些来自其改进版modded-nanoGPT项目的设计思路。其目标是为此类规模的模型建立一个“稳健的基线”。

主要架构特征包括:

●Dense Transformer(稠密模型Transformer)

●Rotary Embeddings(旋转位置编码),无显式位置嵌入(positional embeddings)

●QK Norm(对Query和Key向量进行归一化)

●Embedding与Unembedding权重不共享(untied weights)

●在Token Embedding之后进行归一化处理

●MLP使用ReLU²激活函数

●RMSNorm中无可学习参数

●线性层中无偏置项(bias-free linear layers)

●采用多查询注意力机制(Multi-Query Attention, MQA)

●输出层使用Logit Softcap技术

●优化器采用的是Muon + AdamW组合,这很大程度上受到了modded-nanoGPT的影响。卡帕西提到,他计划未来通过精心调整Adam优化器每个模块的学习率来尝试移除Muon,但目前这项工作尚未完成。

问:我是否可以用自己的数据来训练它?比如我所有的Notion笔记、健康数据,以及和其他大模型的对话记录?就像打造一个真正懂我的个人聊天机器人?

卡帕西:我觉得这个代码库并不适合这个用途。你可以把这些微型模型想象成幼龄儿童(比如幼儿园阶段),它们确实不具备那些大型模型的原生智力。如果你用自己的数据对它进行微调/训练,可能会得到一些看似模仿你文风的有趣回应,但最终效果会显得很粗糙。

要实现你期待的效果,可能需要这样的流程:先整理原始数据,在此基础上进行大量合成数据重写(这步骤很棘手,不确定性高,属于研究范畴),然后选用顶尖开源大模型进行微调。过程中可能还需要混合大量预训练数据,以免在微调过程中损失模型原有的智能水平。

因此,说实话,要让这套流程完美运作至今仍属于前沿研究领域。

目前最可行的非技术方案,是把所有资料导入NotebookLM这类工具,它可通过RAG技术(即分块检索参考)处理你的数据。你的信息会通过上下文窗口传递给模型,但不会改变模型本身的权重。虽然模型不会真正"认识你",但这可能是当前最容易实现的近似方案了。

问:这些代码有多少是你手写的?

卡帕西:代码基本上全是手写的(配合Tab键自动补全)。我尝试过几次使用Claude/Codex这类AI编程助手,但效果完全不行,总体上反而帮不上忙。可能我的代码库风格太偏离它们训练数据的风格了。

来源:https://36kr.com/p/3508807774067592

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
索尼推出INZONE英纵G500 Fnatic联名款电竞鼠标,1299元

索尼推出INZONE英纵G500 Fnatic联名款电竞鼠标,1299元

索尼INZONE与Fnatic强强联手,G500 FNC联名款轻量化电竞鼠标深度解析 近日,索尼旗下专业电竞品牌INZONE(英纵)与全球顶尖电子竞技俱乐部Fnatic达成合作,共同推出了备受瞩目的联名新品——INZONE G500 FNC轻量化电竞鼠标。目前,这款鼠标已在京东官方渠道首发上市,官方

时间:2026-04-15 16:56
索尼INZONE英纵H6 Air游戏耳机预售:开放式声学设计,1399元

索尼INZONE英纵H6 Air游戏耳机预售:开放式声学设计,1399元

索尼INZONE英纵H6 Air开放式游戏耳机开启预售:轻量化设计与RPG音效加持 索尼INZONE英纵H6 Air开放式游戏耳机现已正式开启预售,主打RPG音效与轻量化设计,预售价定为1399元。 这款游戏耳机采用了创新的开放式声学结构。其优势在于,能够显著降低耳机腔体内部的声波反射与不规则衰减,

时间:2026-04-15 16:55
小米官方上线“电池升级”服务,消息称可为Xiaomi 13系列手机更换更大容量电池

小米官方上线“电池升级”服务,消息称可为Xiaomi 13系列手机更换更大容量电池

小米悄然上线“电池升级”服务,老机型续航有望“逆生长” 最近,小米官方服务页面出现了一项新变化,一项名为「电池升级」的服务悄然上线。根据多位数码博主的爆料,这项服务并非简单的电池更换,而是能为特定机型——比如 Xiaomi 13 系列——换上容量更大的新电池。 不过,从目前公开渠道能查询到的信息来看

时间:2026-04-15 16:52
马斯克起诉OpenAI 要求罢免CEO奥尔特曼

马斯克起诉OpenAI 要求罢免CEO奥尔特曼

马斯克再提新诉求,要求罢免奥尔特曼并恢复OpenAI非营利性质 你猜怎么着?马斯克起诉OpenAI那桩备受瞩目的案子,最近又添了新“剧情”。在最新提交的法律文件中,他的诉求变得更为具体:如果法院最终认定,OpenAI及其CEO萨姆·奥尔特曼、总裁格雷格·布罗克曼的行为构成欺诈,那么他将要求法庭罢免这

时间:2026-04-15 16:42
生猪主力合约大涨近5%,连续第二日上涨

生猪主力合约大涨近5%,连续第二日上涨

生猪主力合约日内大涨近5%,连续第二日走强 生猪期货市场释放强劲看涨信号:主力合约今日盘中大幅拉升,最高涨幅逼近5%,报价一度触及9620 00元 吨关键位置。这已是该合约连续第二个交易日强势收涨,行情表现引发市场高度关注。 连续两日的显著上涨,为近期持续震荡的生猪产业链带来了明确的方向性指引。期价

时间:2026-04-15 16:39
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程