抱抱脸模型排行榜顶尖高手yuxinlu1
一位独立开发者,竟能从一众科技巨头中脱颖而出,成功闯入抱抱脸(Hugging Face)Models Trending榜单的前列? 浏览抱抱脸的Trending榜单时,一眼便注意到——榜首是GLM-5 2,智谱最新开源模型,已是老面孔,下载量突破6万,并不意外。紧随其后的是百度的无限OCR,近期低调
嗯……嗯?!
而且该账号一举占据了两个位置。再看下载量——最新数据已飙升至**20.7万**和**53.6万**。好家伙,这是什么神仙模型?
更令人惊叹的是,此前一周,这位个人开发者的模型曾一度霸占抱抱脸榜首,力压GLM-5.2,连智谱负责人都在X上公开推荐:
也就是说,在智谱、百度、Qwen、NVIDIA等众多知名机构之间,一个个人开发者账号硬生生挤进了前列,而且下载量还如此之高。
不禁让人好奇:**luyuxin究竟是谁?为何能有如此大的影响力?**
## “素人模型”冲上抱抱脸热榜
这一波Hugging Face热榜中,前排基本上被大厂、明星团队和热门赛道占据。例如智谱GLM-5.2,拥有753B超大参数,是国产明星大模型;百度Unlimited-OCR,踩中了近期火爆的OCR与文档理解方向。
再往下还有Qwen的AgentWorld、英伟达的LocateAnything、微软的FastContext。国产开源大模型的老面孔也都在列:MiniMax M3、Kimi-K2.7-Code、DeepSeek-V4-Pro。
图像生成方向也有Krea,其新模型Krea-2-Turbo和Krea-2-Raw均榜上有名。
结果其中还夹着两个**luyuxin的12B GGUF模型**。
不er……**luyuxin你也太醒目了吧……**
仔细一看,这两个新模型的主要思路是:将**Fable 5**的编程推理能力,蒸馏进一个能在本地运行的**Gemma4-12B**小模型中。只需4.5GB显存即可运行,支持本地、离线、零API成本。普通玩家凭借一张消费级显卡,甚至一台配备统一内存的Mac,就能轻松跑起来。
两个模型的分工各不相同。V1是**Coder版**,专注于写代码、解题、生成可运行代码。
根据模型卡介绍,其训练数据是“可验证”的代码推理:每条思维链对应的代码,都必须真正跑过测试、通过后才被保留。教师数据主要来源于Cursor的**Composer 2.5**,外加**Fable 5**——Composer 2.5做错的题目,会交给Fable 5重新推演,生成新的推理链和正确代码。V1发布后,曾连续多日霸占抱抱脸Trending榜单榜首。
V2则为agentic版,增加了多步工具调用能力,可充当本地Agent使用,能够自行阅读、推理、执行并再次验证。作者还跑了benchmark测试——在tau2-bench的telecom子集上,基座gemma-4-12B得分15%,而V2版模型得分55%,大约是基础性能的**3.5倍**。
不过作者也坦言,这是本地自测、单一领域、20个任务跑出来的相对值,不能直接与官方榜单比较,并且坦率地承认与前沿大模型仍有较大差距。
作者还提到:Fable 5后来被下线了,只有他自己的数据集仍保留着Fable 5“原始”的那份推理过程。而社区贡献数据中缺失的那部分reasoning,他改用Claude Opus 4.8(xhigh)重新生成,一条条补了回来。他也承认,重建出来的轨迹“可能和原版Fable 5有出入”,但这是当时唯一可行的方案。
他还在discussion中透露,这套微调数据实际上只有约1万条examples。他强调,数据量并没有大家想象得那么重要,真正关键的是质量、筛选与验证。
这套模型之所以在抱抱脸上能有如此高的热度,还有一个非常现实的原因:**本地可运行**。这两个模型都是**GGUF量化版**。GGUF是llama.cpp生态中常见的本地模型格式,用户可以使用llama.cpp、Ollama、LM Studio、Jan等工具直接加载。这对coding场景尤其有吸引力——写代码、看仓库、跑命令、调bug,往往涉及私有项目和本地环境。能在自己机器上运行,意味着无需将代码上传到云端,也无需每次支付API调用成本。
更关键的是,它的门槛并不高。V1模型卡中写道,最小的**Q2_K**版本约**4.5GB**,只要拥有约4.5GB显存或统一内存,就能运行一个私密、离线的编程助手。
作者推荐的甜点位是**Q4_K_M**,大小约**6.87GB**;更高质量的**Q8_0**则约**11.8GB**。V2因为更偏agentic,作者没有放出Q2_K——原因是压力测试未通过,不够可靠。因此V2的最小可靠版本从**Q3_K_M**开始,约**5.7GB**;推荐的**Q4_K_M**依然约**6.87GB**。
作者还提前剧透了后续计划——V3已在路上。他表示,V3仍将沿着12B这条线继续深耕coding+agentic方向。作者说,自己也没想到这次后训练的提升会这么大,所以接下来会继续往前推进。尤其是在tau2-bench telecom上,V2还存在一些“过度尝试、反复retry”的问题,V3将通过更多训练来改进。另一方面,他还在做一个更大的版本:**Qwen3.6-27B**——将同一套coding+agentic配方应用于更大的底座上,为显存更充裕的用户提供选择。
## 一个人,40小时,杀进大厂中间
能单枪匹马冲上抱抱脸热榜,下载量合计超过70万,在一众大厂机构中杀出一席之地。
**这位作者究竟是何方神圣?**
联系到作者后,也得知了他的故事。他叫**逯雨鑫**,目前是美国一所高校在读的AI方向研究生,本科就读于数据与商业分析专业,中途还专门补过一轮全栈开发,学习了前后端、软件开发、数据处理。这两个爆火模型并不是他的主业,而是**纯自费的个人项目**。
“开源这东西其实只是花钱,并不会让你有任何收入。”他对此心知肚明,因此做V1的最初动机反而是“自我提升”:学校教的知识更新太慢,读研时教授讲的还是两三年前的内容,而AI日新月异,他干脆用这个项目来逼自己跟上最新进展。
为了做这些模型,他烧掉了整整一个Claude Max 20×套餐,单是V2就花了40多个小时。合成数据、手动清洗、训练、评测、再训练,几乎全部由他一人扛下。硬件方面,他使用的是一张RTX 5090,显存为32GB VRAM;另外还有约96GB的本地SSD资源可配合使用。实际能调动的资源规模大约在128GB左右。对个人开发者来说不算差,但与大型厂商和AI Lab的算力池相比,完全不在一个量级。
他透露,整个过程中最耗时的其实不是训练,而是**数据处理**。尤其是agentic数据,真实的对话往往很长,一个任务可能有十几步,几千甚至几万个token。但受限于显存,他训练时一次最多只能喂2048 token。于是他采用类似“滑动窗口”的处理方式:在每段多轮会话中,以最近一次用户消息为锚点,围绕一次工具调用,将上下文裁剪到预算以内。
V1和V2均以**Gemma 4-12B**为底座。选择它并非因为它容易上手,恰恰相反,Gemma 4的格式和工具协议比较特殊,适配起来相当麻烦,甚至很多客户端支持并不完善。逯雨鑫表示,一方面是挑战自己;另一方面,是因为12B这个尺寸很有吸引力。他算过,如果量化到3bit左右,许多8GB统一内存的Mac用户也能运行起来,还能留出一定的上下文窗口。
> 我现在知道,很多人使用的电脑还是8GB左右的统一内存。所以我想在最大可能的参数量下,让更多人能够使用。
逯雨鑫将本地模型的价值总结为两个词:**隐私,免费**。他认为,很多人只是想让AI帮自己整理文件、处理数据、做PPT,或者体验一下agent,并不一定愿意每月为Claude、GPT付费。
> 人可能就是想玩一玩,为什么非得要收费呢?
V1发布后,他起初并未太关注榜单,只是像往常一样在模型卡中写道:如果大家喜欢、下载量和likes多,他就继续做V2。没想到两三天后,模型突然从不知名排名跃升至第八;睡了一觉,又冲到了第一。随后,评论和issue大量涌入。他几乎每一条都认真看。最多的时候,每天花三四个小时浏览Hugging Face评论、回复问题、测试用户反馈,再把结果告诉对方。他表示:“社区有需求,我是真的在去做,这才是最关键的。”
## 原来还是个爱看网文的……
在HF上,逯雨鑫总共发布了9个公开模型,除了两个爆火模型,他还做过“直接蒸馏Claude”的模型。例如gemma-4-12B-it-Claude-4.6-4.8-Opus-GGUF,可以理解为一个通用版Gemma4-12B蒸馏模型。它并不局限于编程,更像是将Claude Opus的回答风格、推理习惯、thinking能力,压缩到这个12B本地模型中。另一个模型则干脆换上JetBrains的编程模型Mellum2作为底座,专做推理蒸馏。
再继续往下翻……等等,怎么还有网文的微调模型?
好家伙,还分了四个题材,都是中文网文LoRA,而且全部基于Qwen3.6。
逯雨鑫告诉量子位,这其实是他最早开始做Hugging Face模型的入口。因为他自己本来就喜欢看小说。追一本未完结的小说时,读者会焦虑;作者日更码字也很辛苦。于是,他想做一整套免费的小说生成pipeline,利用不同风格的中文小说LoRA,让作者能用AI提速,读者也能更快看到内容。但中文小说LoRA在HF上并不算热门,后来他发现用户更关注coding和agentic,于是方向逐渐转向了现在这条线。
当被问及对其他个人开发者有何建议时,逯雨鑫说:**真诚和坚持最重要**。真诚,就是不要夸大模型能力。哪里强,哪里弱,都要说清楚。
> 你要如实告诉大家。我骗你说我这有多强,但真实使用下来出现很多问题,下次我一发东西,你就不相信我了。
坚持,则是开源作者必须接受的一件事:你一定会遇到不好的声音。模型火了以后,逯雨鑫也遇到过质疑,但他还是决定坚持下去。在他看来,开源这条路本来就很难。就算登顶Hugging Face热榜,也不会直接带来收入。更多时候,是自己花钱买算力、花时间处理数据、回复评论、修bug,然后还要面对少数负面声音。
而支撑他一路做下来的,还有一种很个人化的工作节奏。逯雨鑫提到,自己患有ADHD。过去这可能意味着很难长期按部就班推进一件事,但在AI这个变化极快的领域,快速切换兴趣、迅速进入hyperfocus,反而成了一种优势。他甚至认为:“**AI时代是ADHD的天下。**”因为一个方向凉下来后,如果还一直钻在里面,等再转去学新的东西,可能已经晚了。
聊到最后,也抛出了最初的那个问题:**作为个人开发者,凭什么能在大厂中间挤进前排?**
逯雨鑫的回答很中肯。他认为大厂当然能做得更好,拥有更多researcher和更强算力。但大厂发布开源小模型时,往往还承担着品牌宣传、API引流等目标;而个人开发者没有这些包袱,反而可以更专注地解决一个具体痛点。
> 我很高兴,但不是说我真的全面打败了他们,只是可能更认真一些。
在他看来,这正是个人开源作者的机会:不必做全能模型,而是把一个足够具体的问题做到好用。
如果你也想体验一下这款本地模型,链接已经放在下方。
温馨提示:目前最适配的平台是**llama.cpp**,优先推荐大家使用~
HF地址:https://huggingface.co/yuxinlu1 你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:抱抱脸模型排行榜顶尖高手yuxinlu1要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
