Google LiteRT-LM:端侧大模型推理框架解析

LiteRT-LM 是 Google 推出的端侧大语言模型推理框架,已更新至 v0.10.1 版本。项目采用 Apache-2.0 开源协议,托管于 GitHub 平台。

核心能力

能力 详情
跨平台 Android、iOS、Linux、Windows、Web、嵌入式设备
模型压缩 多种量化方案(INT4/INT8),降低内存需求
零依赖 编译后直接运行,无需额外运行时环境
适用场景 移动端、IoT设备、边缘计算节点

项目定位

LiteRT-LM 基于 Google 的端侧机器学习运行时 LiteRT(即 TensorFlow Lite 的后继项目)构建。LiteRT 负责底层模型执行,LiteRT-LM 则处理大语言模型特有的复杂性:KV 缓存管理、会话状态维护、多轮对话支持、Prompt 缓存优化等。

该框架已部署于 Google 自家产品中,包括 Chrome 浏览器的内置 AI 功能、Chromebook Plus 的设备端文本处理、Pixel Watch 的智能回复功能,以及 Gboard 输入法的自动补全模块。

跨平台支持

LiteRT-LM 支持的硬件平台覆盖移动设备到嵌入式硬件:

  • Android:CPU、GPU(OpenCL/OpenGL)、NPU(Qualcomm Snapdragon、MediaTek Dimensity)
  • iOS:CPU、GPU(Metal),NPU 加速在规划中
  • 桌面端:Linux、macOS、Windows(WSL),GPU 加速通过 WebGPU 实现
  • Web:基于 WebGPU 的浏览器端推理
  • 嵌入式:Raspberry Pi 等 ARM 设备

硬件加速

LiteRT-LM 会根据设备能力自动选择最优执行路径。GPU 加速方面,Android 使用 OpenCL/OpenGL,桌面系统使用 WebGPU,Apple 设备使用 Metal。NPU 加速是另一技术重点,框架封装了 Qualcomm AI Engine Direct 和 MediaTek APU 等厂商 SDK,开发者调用统一接口即可使用 NPU 算力。

Google 公布的基准测试数据(Snapdragon 8 Elite Gen 5,Gemma 3 1B 模型):

  • 首次 Token 响应时间:约 0.12 秒(1024 token 提示词)
  • 预填充吞吐量:超过 11000 tokens/秒
  • 解码速度:100 tokens/秒以上

与 llama.cpp 相比,LiteRT-LM 在 CPU 上解码速度提升约 3 倍,GPU 模式下提升约 7 倍。NPU 加速在预填充阶段相较 GPU 额外提升约 3 倍。

支持的模型

模型 量化方式 模型大小 上下文长度
Gemma 3 1B INT4 557MB 4096
Gemma-3n-E2B INT4 2965MB 4096
Gemma-3n-E4B INT4 4235MB 4096
Phi-4-mini INT8 3728MB 4096
Qwen2.5-1.5b INT8 1524MB 4096
FunctionGemma-270M INT8 288MB 1024
Gemma 4 - - -

FunctionGemma 系列专为函数调用场景优化,支持构建智能代理工作流。Gemma 4 系列于 2026 年 4 月新增支持,E2B 变体针对移动端优化,4B 和 12B 版本面向桌面级硬件。

开发接口

LiteRT-LM 提供多语言 API:

  • Kotlin:已稳定,推荐用于 Android 开发
  • Python:已稳定,适用于原型验证
  • C++:已稳定,面向高性能原生开发
  • Swift:开发中,用于 iOS/macOS 原生应用

快速尝鲜可通过命令行工具直接运行模型。使用 uv 安装后,一条命令即可从 Hugging Face 下载并执行模型:

uv tool install litert-lm

litert-lm run \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

为什么端侧AI重要?

对比项 云API方案 本地方案
隐私保护 数据需上传服务器 数据不出设备
响应延迟 依赖网络,存在延迟 本地即时响应
使用成本 按调用次数收费 零调用费用
可用性 依赖网络连接 离线可用

隐私敏感型应用:医疗记录分析、法律文档处理等场景中,数据不出设备是刚性需求。

高频使用场景:文本摘要、语法检查、代码补全等频繁调用功能,本地模型无边际成本。

离线/弱网环境:航空设备、工业控制系统等网络受限场景。

嵌入式与 IoT:智能家居中控、可穿戴设备等资源受限但需要 AI 能力的硬件。

项目信息

  • GitHub:https://github.com/google-ai-edge/LiteRT-LM
  • 协议:Apache-2.0
  • 版本:v0.10.1
  • 语言:C++

LiteRT-LM 是 Google AI Edge 生态的组成部分,与 LiteRT 运行时、AI Edge Torch 转换工具、MediaPipe 任务框架共同构成从模型训练到端侧部署的工具链。

行业趋势

2026年本地AI Agent呈现爆发态势,端侧部署已成为AI应用的新战场。LiteRT-LM作为Google官方方案,对于计划开发移动AI应用的开发者而言,是值得优先考虑的基础设施。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐