在WWDC26主题演讲中,苹果发布了第三代Apple Foundation Models(AFM),此次阵容共包含五款模型,其中部分在本地端运行,部分基于云端部署,还有一款运行于谷歌服务器之上、依托英伟达芯片提供算力支持。以下将对这一体系的运作方式进行详细拆解。
回顾起点:从端侧到云端
苹果最初于2024年发布基础模型时,产品线涵盖一款参数量约为30亿的端侧语言模型,以及一款"更大规模的服务器端语言模型,可通过Private Cloud Compute访问,运行于苹果自研芯片服务器之上"。
Private Cloud Compute是一项颇具雄心的技术举措,旨在提供云端AI能力的同时,保障与端侧处理相同级别的用户隐私。
也正因如此,将整套系统保持在苹果生态内部至关重要。Private Cloud Compute运行于苹果自建数据中心、搭载苹果自研芯片的服务器之上,且其隐私保障机制可供独立第三方安全研究人员进行验证。
然而,随着苹果在AI领域的推进遭遇瓶颈,公司转而与谷歌展开合作,将Gemini作为新一轮AI战略的核心支撑。相关成果已于本周WWDC26主题演讲中正式亮相。
第三代AFM共包含五款模型:AFM 3 Core与AFM 3 Code Advanced为端侧模型;AFM Cloud、ADM 3 Cloud(Image)与AFM 3 Cloud Pro则为服务器端模型。其中ADM 3 Cloud(Image)中的"D"代表扩散(Diffusion)技术。
除AFM 3 Cloud Pro外,其余所有模型均基于苹果自研芯片设备运行。AFM 3 Cloud Pro则运行于托管在谷歌云平台的英伟达GPU之上。
这一部署得以实现,源于苹果首次将Private Cloud Compute架构延伸至第三方基础设施,同时"保持苹果强大的安全与隐私保护能力"。
以下是苹果对各模型的说明:
重点解析:AFM 3 Core Advanced与AFM 3 Cloud Pro
先看AFM 3 Core Advanced,这款端侧模型拥有200亿参数,规模相当可观。面向大众市场的端侧模型通常参数量仅在数十亿级别的低位徘徊。
为确保AFM 3 Core Advanced高效运行,苹果采用了稀疏架构设计,可根据不同的输入提示,每次激活最多40亿参数,而非采用密集架构将200亿参数全量保持激活状态。
这一机制在概念上与混合专家(Mixture of Experts)方法相似,但其选择性激活策略依托的是苹果自主研发的技术,具体细节已在一年前发布的研究论文《面向大语言模型的指令跟随剪枝》中详细阐述。
再看AFM 3 Cloud Pro,这是此次部署于外部基础设施的模型。苹果本周在其安全博客中发布了关于这一架构扩展的技术细节,其中最值得关注的部分如下:
苹果与谷歌在此基础上携手构建了一系列能力,其完备程度远超传统保密计算部署的范畴。
苹果在其机器学习研究博客中表示,五款模型"在分化为各自架构与应用场景之前,共享同一初始基础,并在此基础上扩展了多模态能力,涵盖音频、图像理解、长上下文推理以及高质量视觉生成"。
苹果还说明,训练数据"涵盖公开可用信息、经许可或购买的第三方数据、开源数据、专项研究获取的数据,以及合成数据"。苹果同时强调,训练过程未使用任何用户数据或交互记录,且网页发布者可选择退出基础模型训练。
苹果对第三代基础模型进行了大规模人工评估,内部评审人员从指令遵循能力、真实性、呈现效果及图像理解等多个维度对模型响应进行评分。
各模型均与前代版本进行了对比评估(适用时),部分结果如下:
在针对通用文本能力的人工同步评估中,AFM 3 Core与AFM 3 Cloud相较前代模型的优选响应占比。结果分四个地区语言组呈现,以体现各国际版本的一致表现。"English"代表全球英语评估集,"PFIGSCJK"、"DNNSTV"与"AFIHHMPRTU"则代表其余受支持的全球语言区域。
在英语图像理解能力的人工同步评估中,AFM 3 Core与AFM 3 Cloud相较2025年前代模型的优选响应占比。
在听写任务的人工同步评估中,AFM 3 Core Advanced相较苹果现有生产级听写系统在七个质量维度上的综合表现。AFM 3 Core Advanced在整体质量上展现出正向胜率,且在所有格式化与理解维度上的优势均保持一致。
如需深入了解第三代Apple Foundation Models的更多技术细节,欢迎访问苹果官方技术博客查阅完整内容。
Q1:苹果第三代Apple Foundation Models包含哪些模型?
A:第三代AFM共包含五款模型。其中端侧模型为AFM 3 Core与AFM 3 Code Advanced,可直接在苹果设备本地运行;服务器端模型包括AFM Cloud、ADM 3 Cloud(Image)和AFM 3 Cloud Pro。值得注意的是,AFM 3 Cloud Pro运行于谷歌云平台托管的英伟达GPU之上,是苹果首次将Private Cloud Compute架构延伸至第三方基础设施的成果。
Q2:AFM 3 Core Advanced的200亿参数是如何在端侧设备上高效运行的?
A:苹果为AFM 3 Core Advanced采用了稀疏架构设计,并非将200亿参数全量激活,而是根据每次输入的提示内容,动态激活最多40亿参数。这与混合专家(Mixture of Experts)方法在概念上有相似之处,但苹果使用的是自主研发的技术,并在论文《面向大语言模型的指令跟随剪枝》中进行了详细阐述,从而大幅降低了端侧运行的资源开销。
Q3:苹果第三代基础模型的训练数据来源有哪些?是否使用了用户数据?