面包屑图标 当前位置: 首页
AI资讯
热点详情

辟谣苹果AI基础模型真相自研3B多模型架构并非GPT-4o

AI热点日报
AI热点日报时间:2026-05-30
热点解读

苹果自研AppleIntelligence基础模型,包含约30亿参数的端侧模型与更大规模服务器模型,针对用户日常行为微调,通过量化、剪枝等多项优化实现高效推理,在摘要、指令遵循等维度性能超越同类模型。

刚刚落幕的苹果全球开发者大会(WWDC),可谓是吸引了全球目光。

然而,苹果仅在发布会上轻描淡写地提及了一句“powered by GPT-4o”,国内部分不够专业的媒体便断章取义,直接宣称“Apple Intelligence是套壳GPT-4o”。社交媒体上也涌现出不少跟风起哄的吃瓜群众,场面令人哭笑不得。

海外社交平台同样谣言四起。面对这种情况,苹果终于坐不住了,官方紧急发布了一篇技术博客,正式公开了Apple Intelligence背后的基础生成模型——竟然是苹果自主研发的模型!

尽管Siri确实可以直接调用GPT接口,但这仅仅是Apple Intelligence可调用的外部模型之一,并非核心。

根据这篇博客介绍,Apple Intelligence背后的基础模型是苹果自研的一个约30亿参数的端侧语言模型(Apple On-Device),以及一个通过私有云计算并在Apple芯片服务器上运行的更大的基于服务器的语言模型(Apple Server)。这些模型均针对苹果用户的日常行为习惯进行了微调训练。

这无疑是苹果为自己正名的一次重要发声。毕竟在大模型如火如荼发展的一年半时间里,苹果几乎一直“销声匿迹”。这次终于闷声办成了一件大事,自然不能让他人抢了风头。

Apple Intelligence 背后是多个模型

Apple Intelligence 由多个强大的大语言模型(LLM)组成,它们针对用户体验进行了专门设计与微调,能够执行撰写和优化文本摘要、确定通知优先级、为与家人朋友的对话创建有趣的图像,以及简化跨应用操作等任务。

苹果官网目前详细介绍了其中两个模型:一个参数量为3B,可直接在手机等终端设备上运行;另一个是更大的语言模型,虽未明确参数量,但其性能可与GPT-4相媲美。该模型可通过私有云计算获得,并在Apple的服务器上运行。

接下来,我们一起看看这两个模型的技术实现是如何完成的。

模型的训练主要分为以下5步,我们逐一拆解。

数据预处理与模型预训练

基础模型是在Apple的AXLearn框架上训练的,这是苹果在2023年发布的一个开源项目。AXLearn构建在JAX和XLA之上,能够在各种训练硬件和云平台上高效且可扩展地训练模型,包括TPU以及云端和本地的GPU。此外,还结合使用了数据并行、张量并行、序列并行和完全分片数据并行(FSDP),在数据、模型和序列长度等多个维度上实现了扩展训练。

训练数据均来源于授权数据,包括为增强特定功能而精心挑选的数据,以及通过爬虫AppleBot收集的公开数据,并已移除隐私敏感和含有侮辱歧视字眼的内容。

模型后训练(Post-Training)

苹果在官网上提到,他们使用了两个原创算法进行后训练,显著提升了模型的指令执行效果。

(1) 使用教师委员会(teacher committee)的拒绝采样微调算法(rejection sampling fine-tuning algorithm)
(2) 使用镜像下降策略优化(mirror descent policy optimization)和留一优势估计(leave-one-out advantage estimator)的基于人类反馈的强化学习(RLHF)算法

模型优化

(1) 分组查询注意力机制(Grouped Query Attention, GQA):无论是设备端还是服务器端的模型,都采用了分组查询注意力机制。通过共享的输入和输出词汇嵌入表,以减少内存需求和推理成本。设备端模型的词汇量为49K,而服务器模型的词汇量为100K,包含了额外的语言和技术词汇。

(2) 低比特化量化(Low-bit):在设备端推理中,采用了低比特化技术,这是实现必要的内存、功耗和性能要求的关键优化手段。为了保持模型质量,开发了一个新框架,使用LoRA适配器结合了混合的2-bit和4-bit配置策略——平均每个权重为3.5bit,以达到与未压缩模型相同的准确性。

(3) Talaria:Talaria是一款交互式模型延迟和功耗分析工具,能够更好地指导每个操作的比特率选择。模型还使用了激活量化和嵌入量化,并开发了一种在神经引擎上实现高效Key-Value(KV)缓存更新的方法。

通过这一系列优化,在iPhone 15 Pro上可以实现每个prompt token约0.6毫秒的首个token延迟,以及每秒生成30个token的速度。这种性能是在未使用token推测技术的情况下实现的,而采用该技术后,token生成速度将进一步提升。

模型微调

模型微调采用的方法是Adapter微调,即将小型神经网络模块插入预训练模型的各层,仅训练这些小网络而不改变预训练模型的参数。具体来说,对注意力矩阵、注意力投影矩阵以及点状前馈网络中的全连接层进行适配,从而调整Transformer架构中解码层的合适部分。

通过仅微调适配器层,基准预训练模型的原始参数保持不变,从而保留了模型的通用知识,同时将适配器层调整为支持特定任务。模型使用16位表示适配器参数,对于约30亿参数的设备端模型,rank 16适配器的参数通常只需几十兆字节。这些适配器模型可以动态加载,暂时缓存于内存中,并进行交换——使基础模型能够在执行任务时动态专门化,同时高效管理内存并保证操作系统的响应速度。

性能表现

说了这么多,那么这两个模型的性能表现到底如何呢?下面给出了6个维度的评估结果。3B的小模型称为Apple On-Device,服务器上运行的大模型称为Apple Server

人类满意度得分

首先是评估模型的摘要生成能力,根据评分者在五个维度上的得分,摘要被分为“好”、“中”、“差”。如果所有维度都表现优秀(分值越高越好),则结果归类为“好”。如果任何一个维度表现糟糕(分值越低越好),则结果归类为“差”。

可以看到Apple On-Device的摘要生成能力明显强于同类模型Phi-3-mini。

真实世界提示评估

此项评估全面考察模型能力,问题涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等主要类别,生成的结果由人类评估。

可以看到3B小模型Apple On-Device性能强于Gemma-7B,而大模型Apple Server性能强于GPT-3.5-Turbo,略逊于GPT-4-Turbo。

输出危害评估

此评估考察了针对有害内容、敏感话题和事实的违规回应比例(越低越好)。

可以看到,Apple On-Device和Apple Server比现有模型都安全得多,这也符合苹果公司一贯谨慎行事的风格。

有用性评估

模型仅仅安全还不够,这项评估考察了当输入内容合法时,人类评估者更偏好哪个模型生成的内容。

可以看到,Apple On-Device和Apple Server生成的内容更受人类青睐。

指令遵循评估 (IFEval)

这项评估测试了模型遵循人类指令的能力,可以看到两个模型的能力均处于领先水平。

写作能力评估

最后一项评估是写作能力评估,可以看到两个模型的能力也丝毫不逊色。

Next

值得留意的是,苹果的这些模型在预训练之后,又利用苹果用户的设备行为日志进行了微调训练和adapter训练。这也难怪它在系统级任务上表现如此惊艳。

由于OpenAI根本没有这些系统级的用户数据,所以GPT系列模型再努力进化也很难胜任操作系统级别的任务。从这个角度来看,如果OpenAI始终只是苹果系统里的一个APP,那未来的确堪忧。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:辟谣苹果AI基础模型真相自研3B多模型架构并非GPT-4o要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2024061323184.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-05-30 22:47
请提供原始文章标题以便优化

最近国内AI厂商的动作相当密集,大模型纷纷降价,新应用层出不穷——百小应、海螺AI、腾讯元宝轮番登场,热闹非凡。紧跟这一节奏,豆包也放出了几项新功能: - **开放新版本抢先体验入口**:更强大的能力搭配全新视觉设计,用户体验显著提升; - **推出全新桌面客户端**:实测发现,这并非简单的网页打包

AI热点2026-05-30 22:46
海螺AI市场趋势预测与行业分析建议的参考价值

海螺水泥近日发布了2025年度业绩报告,全年实现营业收入825 32亿元,同比下降9 33%,但净利润逆势增长5 42%,达到81 13亿元。这是近五年来净利润首次恢复正增长,背后核心驱动因素清晰:极致成本管控、海外高毛利业务持续扩张,叠加“水泥+”产业链延伸带来的协同效应。 如果你翻阅海螺AI生成

AI热点2026-05-30 22:46
大模型与数据治理的应用场景及实践

大模型正通过自然语言推动数据治理向对话化演进,降低技术门槛并提升效率。应用场景包括元数据发现与知识图谱生成、代码生成与校正、对话式管理界面。但仍面临幻觉、安全隐私、成本上升及数据质量等风险,需人工干预与技能培训。

AI热点2026-05-30 22:45
狗狗币测试支撑位 Allora AI应用价值飙升

先说几个核心观察。狗狗币(DOGE)目前正逼近0 10美元这个关键心理关口,更重要的是,它正在测试一个重要的技术支撑位。回顾过去一周,DOGE价格下跌了5 97%,跌至0 099美元附近。自2024年12月的高点以来,狗狗币持续走低,高点与低点同步下移,甚至一度触及0 082美元的长期支撑位。这种走

延伸阅读