Google开源端侧大模型推理框架,速度比llama.cpp快7倍
Google LiteRT-LM:端侧大模型推理框架解析
LiteRT-LM 是 Google 推出的端侧大语言模型推理框架,已更新至 v0.10.1 版本。项目采用 Apache-2.0 开源协议,托管于 GitHub 平台。
核心能力
| 能力 | 详情 |
|---|---|
| 跨平台 | Android、iOS、Linux、Windows、Web、嵌入式设备 |
| 模型压缩 | 多种量化方案(INT4/INT8),降低内存需求 |
| 零依赖 | 编译后直接运行,无需额外运行时环境 |
| 适用场景 | 移动端、IoT设备、边缘计算节点 |
项目定位
LiteRT-LM 基于 Google 的端侧机器学习运行时 LiteRT(即 TensorFlow Lite 的后继项目)构建。LiteRT 负责底层模型执行,LiteRT-LM 则处理大语言模型特有的复杂性:KV 缓存管理、会话状态维护、多轮对话支持、Prompt 缓存优化等。
该框架已部署于 Google 自家产品中,包括 Chrome 浏览器的内置 AI 功能、Chromebook Plus 的设备端文本处理、Pixel Watch 的智能回复功能,以及 Gboard 输入法的自动补全模块。
跨平台支持
LiteRT-LM 支持的硬件平台覆盖移动设备到嵌入式硬件:
- Android:CPU、GPU(OpenCL/OpenGL)、NPU(Qualcomm Snapdragon、MediaTek Dimensity)
- iOS:CPU、GPU(Metal),NPU 加速在规划中
- 桌面端:Linux、macOS、Windows(WSL),GPU 加速通过 WebGPU 实现
- Web:基于 WebGPU 的浏览器端推理
- 嵌入式:Raspberry Pi 等 ARM 设备
硬件加速
LiteRT-LM 会根据设备能力自动选择最优执行路径。GPU 加速方面,Android 使用 OpenCL/OpenGL,桌面系统使用 WebGPU,Apple 设备使用 Metal。NPU 加速是另一技术重点,框架封装了 Qualcomm AI Engine Direct 和 MediaTek APU 等厂商 SDK,开发者调用统一接口即可使用 NPU 算力。
Google 公布的基准测试数据(Snapdragon 8 Elite Gen 5,Gemma 3 1B 模型):
- 首次 Token 响应时间:约 0.12 秒(1024 token 提示词)
- 预填充吞吐量:超过 11000 tokens/秒
- 解码速度:100 tokens/秒以上
与 llama.cpp 相比,LiteRT-LM 在 CPU 上解码速度提升约 3 倍,GPU 模式下提升约 7 倍。NPU 加速在预填充阶段相较 GPU 额外提升约 3 倍。
支持的模型
| 模型 | 量化方式 | 模型大小 | 上下文长度 |
|---|---|---|---|
| Gemma 3 1B | INT4 | 557MB | 4096 |
| Gemma-3n-E2B | INT4 | 2965MB | 4096 |
| Gemma-3n-E4B | INT4 | 4235MB | 4096 |
| Phi-4-mini | INT8 | 3728MB | 4096 |
| Qwen2.5-1.5b | INT8 | 1524MB | 4096 |
| FunctionGemma-270M | INT8 | 288MB | 1024 |
| Gemma 4 | - | - | - |
FunctionGemma 系列专为函数调用场景优化,支持构建智能代理工作流。Gemma 4 系列于 2026 年 4 月新增支持,E2B 变体针对移动端优化,4B 和 12B 版本面向桌面级硬件。
开发接口
LiteRT-LM 提供多语言 API:
- Kotlin:已稳定,推荐用于 Android 开发
- Python:已稳定,适用于原型验证
- C++:已稳定,面向高性能原生开发
- Swift:开发中,用于 iOS/macOS 原生应用
快速尝鲜可通过命令行工具直接运行模型。使用 uv 安装后,一条命令即可从 Hugging Face 下载并执行模型:
uv tool install litert-lm
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--prompt="What is the capital of France?"
为什么端侧AI重要?
| 对比项 | 云API方案 | 本地方案 |
|---|---|---|
| 隐私保护 | 数据需上传服务器 | 数据不出设备 |
| 响应延迟 | 依赖网络,存在延迟 | 本地即时响应 |
| 使用成本 | 按调用次数收费 | 零调用费用 |
| 可用性 | 依赖网络连接 | 离线可用 |
隐私敏感型应用:医疗记录分析、法律文档处理等场景中,数据不出设备是刚性需求。
高频使用场景:文本摘要、语法检查、代码补全等频繁调用功能,本地模型无边际成本。
离线/弱网环境:航空设备、工业控制系统等网络受限场景。
嵌入式与 IoT:智能家居中控、可穿戴设备等资源受限但需要 AI 能力的硬件。
项目信息
- GitHub:https://github.com/google-ai-edge/LiteRT-LM
- 协议:Apache-2.0
- 版本:v0.10.1
- 语言:C++
LiteRT-LM 是 Google AI Edge 生态的组成部分,与 LiteRT 运行时、AI Edge Torch 转换工具、MediaPipe 任务框架共同构成从模型训练到端侧部署的工具链。
行业趋势
2026年本地AI Agent呈现爆发态势,端侧部署已成为AI应用的新战场。LiteRT-LM作为Google官方方案,对于计划开发移动AI应用的开发者而言,是值得优先考虑的基础设施。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)