腾讯混元发布0.3B端侧模型,内存仅占600MB
2月10日,IT之家发布消息,腾讯混元今日正式发布一款面向消费级硬件场景的“极小”模型HY-1.8B-2Bit。该模型基于首个产业级2Bit端侧量化方案打造,其等效参数量仅为0.3B,内存占用低至600MB,体积比许多常见的手机应用还要小巧。
据介绍,该模型是通过对腾讯混元此前推出的小尺寸语言模型——HY-1.8B-Instruct进行2比特量化感知训练而产出的。相比原始精度模型,其等效参数量降低了6倍,并且在完全继承原模型全思考能力的同时,在真实端侧设备上的生成速度比原始精度模型提升了2到3倍,可大幅提升实际使用体验。
腾讯混元此次推出HY-1.8B-2Bit模型,可以在边缘设备上无压力部署。这也是首个实现2bit产业级量化的端侧模型实践。
比特是计算机存储的最小单位,1比特能表示2种状态,2比特能表示4种状态,依此类推。一般模型的精度可用2比特、4比特、8比特、32比特等方式表示,数值越大模型的精度越高,所占用的内存也越大。
虽然2比特量化的精度损失较大,但通过QAT(量化感知训练)和先进的量化策略,已经能让2比特模型接近全精度模型的性能。在模型能力方面,对比4比特PTQ(训练后量化)模型版本,HY-1.8B-2Bit在数学、代码、科学等指标上表现相当,实现了“小而强”的设计目标。
此外,HY-1.8B-2Bit模型还沿用了Hunyuan-1.8B-Instruct的全思考能力,用户可以灵活使用。模型为简单的查询提供了简洁的思维链,为复杂的任务则提供了详尽的长思维链,用户可以根据其应用的复杂性和资源限制,灵活地选择这两种推理模式。
技术上,量化作为大模型部署上线不可或缺的一环,肩负着降低部署成本与保精度的使命。大部分情况下,对于int4、int8、fp8的压缩精度要求,采用PTQ量化策略即可实现几乎无损。但随着原始模型大小的缩小、压缩bit数的进一步降低,PTQ带来的量化损失是巨大的。因此,对于原始模型大小只有1.8B,量化bit数只有2bit的HY-1.8B-2Bit,混元团队采用了量化感知训练策略,这显著提升了量化后模型的性能。
腾讯混元还通过数据优化、弹性拉伸量化以及训练策略创新三个方法,来最大限度的提升HY-1.8B-2Bit的全科能力。
部署方面,腾讯混元提供了HY-1.8B-2Bit的gguf-int2格式的模型权重与bf16伪量化权重。对比原始精度模型,HY-1.8B-2Bit实际模型大小直降6倍,仅有300MB,能够灵活用于端侧设备上。该模型也已针对Arm等计算平台完成适配,并可部署于启用Arm SME2技术的移动设备上,同时实现高效运行。
在MacBook M4芯片上,固定线程数为2的情况下测试了不同上下文窗口大小下的首字时延和生成速度。模型选定fp16、Q4、HY-1.8B-2Bit三种gguf格式作为对比。在1024输入长度内,HY-1.8B-2Bit的首字时延能够保持3至8倍的加速;在生成速度上,在常用上下文窗口下对比原始模型精度,HY-1.8B-2Bit能够实现至少2倍的稳定加速。
在天玑9500上也进行了同样测试,对比HY-1.8B-Q4格式,首字时延能够加速1.5至2倍,生成速度加速约1.5倍。
为了在边缘设备上实现大语言模型的灵活部署,HY-1.8B-2Bit采用了极低比特量化技术,在保持与INT4-PTQ方法相当模型性能的同时,实现了在端侧设备上的高效稳定推理。
当前,HY-1.8B-2Bit的能力仍受限于监督微调的训练流程,以及基础模型本身的性能与抗压缩能力。针对这一问题,混元团队未来将重点转向强化学习与模型蒸馏等技术路径,以期进一步缩小低比特量化模型与全精度模型之间的能力差距,从而为边缘设备上的大语言模型部署开拓更广阔的应用前景。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Anthropic封杀Claude用户事件解读 公司数据安全如何保障
周一清晨,一家拥有110名员工的农业科技公司,全体员工突然发现自己的Claude账户无法登录。这并非个别现象,而是全员遭遇。从Slack运维频道出现第一张截图开始,短短十分钟内,整个公司都在询问同一个问题:我的Claude出什么问题了? 答案很快揭晓——问题不在用户,而是Anthropic对所有账号
Agent技能安全检测框架SkillSieve的三层防护机制详解
在智能体(Agent)生态系统中,技能(Skill)正迅速演变为一个关键的安全攻击面。其根本原因在于:当前大量智能体依赖社区贡献的技能来扩展功能,而一个技能包通常不仅包含自然语言说明文档,还可能内嵌可执行脚本、依赖声明以及权限请求。它表面上看似一个简单的“功能插件”,但实际上可能获取智能体的核心执行
Unity张俊波:AI重塑智能座舱,3D交互如何打破应用功能边界
在北京车展的聚光灯下,汽车智能化转型的深度对话成为焦点。Unity中国首席执行官张俊波在专访中揭示了一条独特的技术演进路径。其最新发布的AI OS 3D空间交互系统,旨在从根本上重塑车内的人机交互范式。 该系统的核心理念,是通过先进的3D可视化技术,将分散于各个独立应用的功能,整合进一个统一的立体空
达摩院平扫CT肠癌无感检测模型全球首发登顶刊
在癌症早筛领域,一项突破性进展引发广泛关注。近日,欧洲肿瘤内科学会官方期刊《肿瘤学年鉴》正式发表了一项重要研究,该研究由阿里巴巴达摩院携手广东省人民医院等权威机构共同完成,其核心成果是一款名为DAMO COCA的结直肠癌AI筛查模型。这项研究的最大亮点在于,它首次在国际上实现了一种“无感化”筛查模式
酷态科与中电科机器人战略合作 首款原型机5月2日亮相
科技领域迎来重磅合作。4月28日,酷态科正式宣布与中电科机器人有限公司达成独家战略合作伙伴关系。此次合作是消费电子能源解决方案专家与特种机器人技术领军者的强强联合,双方将共同开拓极具前景的未来赛道——外骨骼机器人。 此次合作迅速引发行业关注,其亮点在于成果已迅速落地。官方信息显示,双方联合研发的外骨
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

