WWDC 2026今日开幕:Siri迎来15年来最大变革,全新独立App+Gemini大模型兜底
一、事件概述
北京时间2026年6月8日凌晨,苹果全球开发者大会(WWDC 2026)在Apple Park如期开幕。本次大会以"Intelligence Unleashed(智能,自此释放)"为主题,持续至6月12日,采用线上与线下结合的形式,全球超过3000万名苹果开发者共同参与这一年度技术盛会。
本届WWDC被视为苹果自2024年首次提出Apple Intelligence战略以来最重要的一次技术发布。苹果在开幕式主题演讲中发布了iOS 27、macOS 27、iPadOS 27、watchOS 13、tvOS 27以及visionOS 4等全平台操作系统更新,而其中最重磅的发布,莫过于Siri迎来问世15年来最大规模的架构重塑——全新独立Siri App正式亮相。
苹果软件工程高级副总裁Craig Federighi在主题演讲中宣布:"Siri不再只是一个语音助手,它是你设备上的智能中枢,今天,它终于拥有了独立的身份。"配合这一发布,苹果同时确认与Google达成深度技术合作,Siri将接入Gemini大模型作为云端智能兜底方案,形成"端侧模型 + Private Cloud Compute + Gemini"的三层智能架构。
这一组合标志着苹果在AI战略上正式告别过去三年"保守迭代"的节奏,全面转向以大模型为核心的系统级智能重构。本文将从技术架构、产品策略、产业影响三个维度,对WWDC 2026这一里程碑式发布进行深度解读。
二、详细解读
2.1 Siri独立App架构分析
2.1.1 从"系统服务"到"独立应用"的范式转变
自2011年随iPhone 4S亮相以来,Siri始终以"系统级服务"的形式存在——它没有独立的应用图标,没有独立的应用进程,其交互始终依附于主屏幕、锁屏、控制中心等系统入口。这种深度集成带来了低摩擦的交互体验,也从根本上限制了Siri的能力边界。
WWDC 2026发布的独立Siri App,本质上是一次架构层面的根本性重构。
从技术实现上看,独立Siri App具备以下核心特征:
独立的进程空间与内存管理
新版Siri App拥有独立的沙盒进程,不再与主系统共享内存池。这意味着Siri可以在后台维持更持久的上下文状态,支持跨会话的连续对话记忆。根据苹果在Platforms State of the Union环节披露的技术细节,Siri App的独立进程采用了与Metal 4相同的内存隔离机制,确保在处理敏感用户数据时,Siri的推理过程与主系统完全隔离。
独立的UI渲染管线
Siri App内置了独立的SwiftUI渲染引擎,支持在应用内完成复杂的多模态交互。用户可以在Siri App内直接查看AI生成的图表、编辑Siri协助起草的文档、管理Siri的个性化知识库。这彻底改变了此前Siri只能以"浮窗"或"横幅"形式输出结果的局限。
App Intents的深度整合
独立Siri App全面接入iOS 27新增的App Intents框架。与以往的SiriKit相比,App Intents允许第三方开发者以声明式API将应用功能直接暴露给Siri,无需用户手动配置快捷指令。苹果演示了在Siri App内直接调用Notion、Linear、Figma等第三方应用的完整工作流——Siri可以跨应用读取上下文,并在单一对话中完成多步骤任务编排。
on-device model的系统级调度
这是本次架构升级中最核心的技术亮点。独立Siri App内置了苹果自研的on-device model(端侧大模型),该模型以约30亿参数的规模,针对A17 Pro及以上芯片的Neural Engine进行了深度优化。on-device model负责处理所有不涉及云端计算的推理任务,包括:
- 本地语音指令识别与意图理解
- 设备端快捷指令的自动生成与执行
- 离线状态下的基础问答与计算
- 隐私敏感场景下的本地推理(如健康数据查询)
on-device model的推理结果可以直接驱动系统级操作,而无需将数据发送至云端。苹果在演讲中特别强调,on-device model的推理延迟控制在200ms以内,在A19芯片(预计2026年秋季发布的iPhone 18系列搭载)上可进一步降至120ms。
2.1.2 独立App的交互设计哲学
苹果人机界面设计副总裁Alan Dye在Design Sessions环节详细阐述了Siri独立App的设计理念。与市场上其他AI对话应用(如ChatGPT App、Claude App)不同,Siri App并非简单的"聊天窗口",而是深度融入系统交互上下文的情境感知界面。
具体来说,Siri App具备以下交互特性:
-
跨应用上下文注入:当用户从Safari切换至Siri App时,Siri自动感知Safari中当前活跃标签页的内容,并可以将其作为对话上下文。这一功能通过iOS 27新增的Context Injection API实现,第三方应用也可以选择是否向Siri注入上下文。
-
动态候赛普(Dynamic Canvas):Siri App的对话界面采用动态画布设计,AI生成的结果(如表格、代码块、地图路线)以原生UI组件的形式渲染,而非简单的文本输出。这意味着用户可以直接在Siri App内与AI生成的内容进行交互——比如修改行程规划中的某个地点,或重新运行一段代码。
-
多模态输入融合:Siri App支持语音、文字、图片、文件上传四种输入方式的任意组合。用户可以在语音提问的同时,向Siri发送一张图片作为补充上下文。背后的多模态融合能力由on-device model与Gemini共同提供(详见2.2节)。
2.2 Gemini兜底策略:为何是Google而非其他?
2.2.1 苹果为何需要"兜底策略"?
尽管苹果在on-device model上投入巨大,但端侧模型的固有限制决定了它无法独立应对所有场景:
-
参数规模瓶颈:端侧模型受限于设备内存与功耗,无法达到云端大模型的推理深度。对于需要复杂逻辑推理、长上下文理解或最新知识检索的任务,端侧模型的表现存在明显天花板。
-
知识时效性:on-device model的训练数据存在截止日期,无法实时获取最新信息。而Siri作为系统级助手,用户对其实时性的期待远高于一般的AI对话产品。
-
多语言覆盖:苹果的设备覆盖全球超过30亿活跃设备,on-device model在非英语语言上的表现仍需持续提升。
因此,苹果需要一套云端智能方案作为端侧模型的补充。这就是Gemini兜底策略的核心出发点。
2.2.2 Gemini在Siri架构中的角色定位
需要明确的是,Gemini并非Siri的"替代品",而是Siri三层智能架构中的云端推理层。苹果在技术文档中将这一架构描述为:
On-Device Model(端侧) → Private Cloud Compute(苹果私有云) → Gemini(Google云端大模型)
三层的分工如下:
| 层级 | 模型 | 适用场景 | 数据隐私 |
|---|---|---|---|
| 第一层 | on-device model(苹果自研,~3B参数) | 本地指令、隐私敏感任务、离线场景 | 数据不出设备 |
| 第二层 | Private Cloud Compute(苹果自研,~70B参数) | 需要更强推理但涉及隐私数据的任务 | 苹果服务器,无持久化存储 |
| 第三层 | Gemini(Google提供,1.5 Pro/2.0 Ultra) | 复杂推理、实时信息检索、多语言、创意生成 | 经用户授权后发送至Google服务器 |
关键设计原则:Siri优先使用第一层(on-device model),当端侧模型判断自身能力不足时,在获得用户许可的前提下,依次向上层请求算力支持。这一"阶梯式推理"机制确保了隐私与性能的最佳平衡。
2.2.3 为何选择Gemini而非其他模型?
这是一个业界高度关注的战略问题。苹果与Google在移动搜索分成上有长期合作基础,但在AI时代选择Gemini作为Siri的云端兜底,背后有多重技术考量:
多模态能力的成熟度
Gemini 1.5 Pro原生支持100万token的上下文窗口,且对图像、视频、音频的理解能力在多项基准测试中处于领先地位。对于Siri这样需要处理多模态输入的助手而言,Gemini的多模态原生架构比GPT-4o的"拼接式"多模态更具技术优势。
与Android生态的对称合作
苹果高管在媒体沟通会上被问及"与最大竞争对手合作是否矛盾"时,Federighi的回答颇为务实:"我们的用户同时使用iPhone和Android设备的情况越来越普遍。Siri与Gemini的合作,最终目标是让智能体验在任何场景下都能无缝衔接。"这一表态暗示,苹果可能在未来允许Siri在跨设备场景中调用Gemini的能力,而不受平台限制。
成本与定制化
据彭博社Mark Gurman在会前的分析报道,苹果与Google达成的合作框架中,Google以"优惠费率"向苹果提供Gemini API调用额度,且允许苹果对Gemini进行针对Siri场景的微调(fine-tuning)。这种程度的定制化在苹果与OpenAI的合作(2024年短暂停留于Siri + ChatGPT方案)中未能实现。
Private Cloud Compute的中间层设计
值得注意的是,Siri并不会直接将用户数据发送至Google的Gemini服务器。苹果在架构中设计了**Private Cloud Compute(PCC)**作为中间层——当on-device model判断需要云端推理时,请求首先发送至苹果的PCC节点,由PCC完成数据脱敏、匿名化处理后,再转发至Gemini API。这一设计既利用了Gemini的推理能力,又最大程度保护了用户隐私。苹果表示,PCC层不会保存任何用户数据的副本,且所有转发至Gemini的请求均使用差分隐私技术进行处理。
2.3 与ChatGPT/Siri旧版对比
为了更直观地理解本次Siri升级的技术跨度,我们从五个维度对Siri旧版、Siri + ChatGPT(2024年方案)、Siri独立App + Gemini(2026年方案)进行对比:
2.3.1 架构维度
| 对比项 | Siri旧版(2024及以前) | Siri + ChatGPT(2024方案) | Siri独立App + Gemini(2026) |
|---|---|---|---|
| 架构形态 | 嵌入式系统服务 | 嵌入式服务 + 外部API调用 | 独立应用程序 + 三层智能架构 |
| 主模型 | 规则引擎 + 小模型(<1B) | 规则引擎 + ChatGPT(需跳转) | on-device model + PCC + Gemini |
| 上下文管理 | 单轮对话,无持久记忆 | 依赖ChatGPT的上下文 | 跨会话持久记忆,本地+云端同步 |
| 离线能力 | 仅基础指令 | 无 | 完整on-device model支持 |
2.3.2 能力维度
对话连贯性
- Siri旧版:每轮对话独立处理,缺乏上下文记忆,用户经常需要重复此前已提供的信息。
- Siri + ChatGPT:通过ChatGPT的上下文窗口实现多轮对话,但Siri与ChatGPT之间的切换存在明显割裂感,且ChatGPT无法感知设备本地状态。
- Siri独立App + Gemini:Siri App维护独立的上下文状态,且通过iOS 27的Context Injection API,可以持续感知设备状态(如当前位置、正在运行的应用、日历安排等)。Gemini的100万token上下文窗口则确保了长对话中的信息不丢失。
任务执行深度
- Siri旧版:仅支持预设的Intent类型,扩展能力有限。
- Siri + ChatGPT:ChatGPT可以生成操作建议,但无法直接驱动系统操作。
- Siri独立App + Gemini:App Intents框架使得Siri可以直接调用超过200个系统级操作(如调整系统设置、管理文件、发送消息),并支持第三方应用的深度集成。更重要的是,Siri App可以在单次对话中完成多步骤任务编排——例如"帮我把昨天拍的照片中有人物的那几张发给我妈妈"这一指令,Siri会自动完成:照片检索(调用Photos框架)→ 人物识别(on-device model)→ 联系人匹配 → 发送确认。
多模态理解
- Siri旧版:仅支持语音输入,输出为语音或简单文本。
- Siri + ChatGPT:支持图片输入(通过Share Extension),但体验割裂。
- Siri独立App + Gemini:原生支持语音、文字、图片、文件四种输入方式。Gemini的多模态能力使得Siri可以理解"这张图片中的建筑是什么风格?"这类视觉问答,也可以处理"帮我总结这个PDF的第三章"这类文档理解任务。
2.3.3 隐私保护
隐私一直是苹果AI战略的核心卖点。三种方案在隐私保护上的差异如下:
- Siri旧版:所有语音指令均发送至苹果服务器进行处理(除非开启"在设备上处理Siri"选项,但该选项仅支持基础指令)。
- Siri + ChatGPT:当用户选择使用ChatGPT时,语音数据会发送至OpenAI服务器。尽管苹果与OpenAI签订了数据处理协议,但用户普遍存在隐私顾虑。
- Siri独立App + Gemini:采用"分层隐私"设计。on-device model处理的任务数据完全不出设备;PCC层处理的任务采用匿名化处理;仅当任务明确需要Gemini的云端推理能力且用户授权时,数据才会发送至Google服务器。苹果强调,即便在第三层,通过PCC的中间层处理,Google也无法获得用户的真实身份信息。
2.4 Apple Intelligence升级要点
Siri独立App是Apple Intelligence战略的核心载体,但本届WWDC上Apple Intelligence本身的升级同样值得关注。以下是iOS 27/macOS 27中Apple Intelligence的关键更新:
2.4.1 系统级智能功能的扩展
Writing Tools升级
Writing Tools新增了"全文重构"功能,不仅可以校对和修改选中文本,还可以根据用户指令对整篇文档进行风格转换(如"将这段技术文档改写为面向普通用户的说明")。这一功能由on-device model驱动,无需联网即可使用。
Image Playground 2.0
苹果的图像生成工具Image Playground在本次WWDC上迎来重大升级,新增"参考图风格迁移"功能,用户上传一张参考图,Image Playground可以提取其艺术风格并应用于生成结果。生成模型从此前的Stable Diffusion架构切换为苹果自研的Falcon架构(名称尚未最终确认),生成速度提升3倍,支持在设备上直接生成1024×1024分辨率的图像。
Smart Reply智能化
邮件和消息应用中的智能回复功能(Smart Reply)以往只能生成简短的回复建议。iOS 27中,Smart Reply可以生成长达段落级别的回复草稿,并根据用户的写作习惯进行个性化调整。这一功能背后的语言模型在用户的设备上本地训练(通过Federated Learning技术),确保个性化数据不出设备。
Genmoji升级
iOS 27的Genmoji(AI生成的自定义表情符号)支持更复杂的描述输入,并可以与朋友共享——当朋友收到你发送的Genmoji时,他们的设备会自动下载对应的生成模型,以渲染该Genmoji的动态效果。
2.4.2 跨设备智能同步
Apple Intelligence在iOS 27中引入了Intelligence Sync功能,允许用户在不同苹果设备之间无缝同步AI上下文。例如,用户可以在iPhone上向Siri询问一个问题,然后在Mac上继续同一对话,而无需重复说明上下文。Intelligence Sync通过端到端加密的iCloud通道同步上下文数据,苹果无法读取同步内容。
2.4.3 开发者API的开放
对于开发者而言,本届WWDC最重要的发布莫过于Apple Intelligence API的正式开放。苹果提供了以下核心API:
- Foundation Models API:允许开发者直接调用on-device model的推理能力。模型以约30亿参数的规模运行,支持文本生成、分类、嵌入等任务。
- Intelligence UI Framework:提供标准化的AI交互UI组件(如流式文本输出、多模态输入区域、推理进度指示器),确保第三方应用的AI功能与系统体验一致。
- Siri App Integration API:允许第三方应用作为"能力扩展"注册到Siri App中,使得Siri可以在对话中直接调用第三方应用的功能。
2.5 对开发者生态的影响
2.5.1 App Intents:重新定义应用间的协作
App Intents框架的全面开放,意味着iOS应用之间的"围墙花园"正在被打破——当然,是在用户明确授权和Apple Intelligence协调的前提下。对于开发者而言,这既是机遇也是挑战。
机遇:通过向Siri App注册App Intents,应用可以获得系统级的触达能力。例如,一个项目管理应用可以向Siri注册"创建任务"、"查询任务状态"等Intents,用户可以直接对Siri说"帮我创建一个任务",Siri会调用该应用的API完成操作。这种深度整合极大地提升了应用的用户体验。
挑战:应用需要重新设计其功能模块的API暴露策略。以往,应用的功能主要通过UI操作完成;而在App Intents框架下,应用的功能需要以声明式API的形式暴露给系统。这要求开发者进行额外的工程投入。
2.5.2 Foundation Models API:端侧AI的普及化
Foundation Models API的开放,使得任何开发者都可以在其应用中调用苹果提供的on-device model,而无需自行部署模型或依赖云端API。这一举措的意义在于:
- 降低AI功能的开发门槛:中小开发者无需承担模型训练、部署、维护的成本,即可为应用添加AI功能。
- 隐私合规的天然优势:由于推理在设备上完成,开发者无需担心用户数据的隐私合规问题,这在GDPR、中国个人信息保护法等法规日益严格的背景下具有重要价值。
- 离线能力的标配化:基于Foundation Models API开发的AI功能天然支持离线使用,这在某些场景(如旅行、偏远地区)中具有显著优势。
2.5.3 竞争格局的重构
Apple Intelligence API的开放,对现有的移动AI生态将产生深远影响:
- 对云端AI服务商的冲击:如果on-device model的能力足以满足大部分移动场景的需求,开发者将减少对云端AI API(如OpenAI API、Claude API、百度文心API等)的调用,这将直接影响云端AI服务商的营收结构。
- 对Android生态的压力:目前Android阵营尚未有类似Apple Intelligence的系统级AI能力开放。Google虽然在Pixel设备上提供了Gemini Nano的端侧推理能力,但尚未向所有Android开发者开放统一的Foundation Models API。WWDC 2026的发布将倒逼Android生态加速AI能力的系统级整合。
- 对独立AI应用的影响:Siri独立App的发布,使得系统自带的AI助手能力大幅提升。这对于ChatGPT App、Claude App、文心一言App等独立AI应用而言,意味着用户使用时长的分流。不过,专业向的AI工具(如代码生成、学术写作)仍有其差异化价值。
三、行业影响
3.1 端侧AI成为行业新战场
WWDC 2026最强烈的信号,是苹果对on-device model的战略押注。这一选择将进一步推动整个行业对端侧AI的投入。
高通、联发科的芯片竞赛升级
苹果A系列芯片在Neural Engine上的持续投入,已经对高通、联发科等芯片厂商形成了明显的竞争压力。预计在2026年下半年,高通骁龙8 Gen 5和联发科天玑9400将大幅升级其NPU算力,并加强与端侧大模型(如Gemini Nano、Qwen 3、DeepSeek等)的适配优化。
端侧模型研发加速
目前主流的端侧大模型(如Gemini 1.5 Flash、Phi-3、Gemma 2)的参数规模普遍在10亿以下。苹果的on-device model以30亿参数的规模实现了接近云端模型的推理质量,这将激励更多研究团队投入到高效端侧模型的研发中。可以预见,2026年下半年至2027年,端侧模型的参数规模和推理质量将迎来一轮快速提升。
3.2 隐私优先的AI设计理念成为行业标准?
苹果在WWDC上反复强调的"Privacy is non-negotiable"理念,将在AI时代面临更严格的行业审视。欧盟AI Act、美国加州AI透明度法案等监管框架,均对AI系统的数据处理提出了严格要求。苹果的Private Cloud Compute + on-device model架构,为行业提供了一个兼顾智能与隐私的技术参考方案。
可以预见,未来会有更多厂商跟进类似的"端侧+私有云"混合架构。华为的盘古大模型、vivo的蓝心大模型、小米的MiLM等,均已在端侧部署方面有所布局,但规模和深度与苹果相比仍有差距。
3.3 大模型厂商的平台化竞争
Gemini成为Siri的云端兜底方案,进一步巩固了Google在大模型平台化竞争中的优势地位。目前,Gemini已通过以下渠道触达用户:
- Google Search(搜索结果中的AI Overview)
- Google Workspace(Gmail、Docs、Sheets中的Gemini侧边栏)
- Android系统(Pixel设备的Gemini Nano端侧模型)
- Apple Siri(2026年新增)
这种"多入口、统一模型"的平台化策略,与OpenAI(主要通过ChatGPT App和API)、Anthropic(主要通过Claude App和API)的单点突破策略形成鲜明对比。从用户触达规模来看,Gemini的优势将在2026年下半年进一步放大。
四、对开发者的意义
4.1 立即行动:适配App Intents
对于iOS/macOS开发者而言,App Intents框架的适配是当前最紧迫的任务。苹果在WWDC上明确表示,将在2026年10月的iOS 27.1更新中,将Siri App的推荐能力与应用是否适配App Intents直接挂钩——换言之,未适配App Intents的应用,将失去在Siri App中被推荐的机会。
建议开发者在2026年第三季度完成以下工作:
- 梳理应用的核心功能模块,确定哪些功能适合以App Intents的形式暴露给系统。
- 阅读苹果提供的App Intents开发文档(已在developer.apple.com发布)。
- 在应用的下一个大版本更新中,加入App Intents支持,并进行充分的测试。
4.2 探索Foundation Models API的创新用法
Foundation Models API为应用创新提供了全新的可能性。以下是一些值得探索的方向:
- 离线AI功能:为应用添加无需联网的AI功能(如本地文本摘要、图像分类、语音转录等),提升用户在弱网环境下的使用体验。
- 隐私敏感的AI场景:对于涉及用户敏感数据的AI功能(如健康数据分析、金融数据处理),使用on-device model进行处理,避免数据外泄风险。
- 实时AI交互:on-device model的低延迟特性,使得实时AI交互(如语音对话、实时翻译)成为可能。
4.3 重新思考应用的"入口"设计
Siri独立App的发布,意味着iOS的生态入口正在从"应用图标"向"AI对话"转移。用户可能不再需要逐个打开应用,而是通过Siri App以对话的方式完成所有操作。
对于开发者而言,这要求重新思考应用的"存在感"问题:如果用户主要通过Siri使用你的应用功能,那么应用的独立UI是否仍然重要?应用的品牌如何在不直接打开应用的情况下传递给用户?这些问题没有标准答案,但值得每一个移动开发者深入思考。
五、总结
WWDC 2026的Siri独立App发布,是苹果AI战略的一次关键转折。从"嵌入式语音助手"到"独立智能应用",从"规则引擎"到"端云协同大模型架构",Siri的这次变革不仅关乎一个产品的演进,更关乎苹果在整个AI时代的生态定位。
核心技术判断:
-
on-device model是本次发布的技术基石。苹果选择了一条最难但最具长期价值的路线——将AI能力下沉到设备端,而非简单依赖云端API。这一选择将在隐私保护、离线能力、推理延迟三个维度建立持续竞争优势。
-
Gemini兜底策略是务实的妥协。苹果并未强行用自研模型覆盖所有场景,而是选择与Google合作,确保用户体验在短期内达到行业领先水平。这种"自研+合作"的双轨策略,值得其他厂商借鉴。
-
App Intents是生态控制权的再分配。通过App Intents,苹果进一步强化了系统在应用生态中的协调地位。这对开发者既是机遇(获得系统级触达)也是挑战(需要额外的工程投入)。
站在更长远的视角,WWDC 2026可能被视为移动AI时代的真正开端——不是因为AI能力本身的出现(这方面Android阵营其实更早),而是因为AI能力首次以系统级的深度、以隐私优先的方式、以开放的开发者API形式,全面融入了一个主流移动操作系统。
对于中国开发者而言,本次WWDC还有一个值得注意的细节:苹果在演讲中多次提到"iOS 27将进一步提升对中文字符渲染和中文语音识别的优化",且on-device model在中文理解能力上有明显提升。这暗示苹果对中国市场的AI体验正在加大投入。不过,由于Gemini在大陆地区的可用性限制,国行iPhone的Siri云端兜底方案是否会采用不同的模型(如百度文心或阿里通义),仍待苹果在后续的发布会上进一步明确。
无论如何,2026年的这个6月,Siri终于找回了它15年前丢失的东西——不只是技术的领先,更是"让每个人都能用上AI"的初心。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)