Google开源端侧大模型推理框架，速度比llama.cpp快7倍

是吴青柠呀

428人浏览 · 2026-04-12 10:33:09

是吴青柠呀 · 2026-04-12 10:33:09 发布

Google LiteRT-LM：端侧大模型推理框架解析

LiteRT-LM 是 Google 推出的端侧大语言模型推理框架，已更新至 v0.10.1 版本。项目采用 Apache-2.0 开源协议，托管于 GitHub 平台。

核心能力

能力	详情
跨平台	Android、iOS、Linux、Windows、Web、嵌入式设备
模型压缩	多种量化方案（INT4/INT8），降低内存需求
零依赖	编译后直接运行，无需额外运行时环境
适用场景	移动端、IoT设备、边缘计算节点

项目定位

LiteRT-LM 基于 Google 的端侧机器学习运行时 LiteRT（即 TensorFlow Lite 的后继项目）构建。LiteRT 负责底层模型执行，LiteRT-LM 则处理大语言模型特有的复杂性：KV 缓存管理、会话状态维护、多轮对话支持、Prompt 缓存优化等。

该框架已部署于 Google 自家产品中，包括 Chrome 浏览器的内置 AI 功能、Chromebook Plus 的设备端文本处理、Pixel Watch 的智能回复功能，以及 Gboard 输入法的自动补全模块。

跨平台支持

LiteRT-LM 支持的硬件平台覆盖移动设备到嵌入式硬件：

Android：CPU、GPU（OpenCL/OpenGL）、NPU（Qualcomm Snapdragon、MediaTek Dimensity）
iOS：CPU、GPU（Metal），NPU 加速在规划中
桌面端：Linux、macOS、Windows（WSL），GPU 加速通过 WebGPU 实现
Web：基于 WebGPU 的浏览器端推理
嵌入式：Raspberry Pi 等 ARM 设备

硬件加速

LiteRT-LM 会根据设备能力自动选择最优执行路径。GPU 加速方面，Android 使用 OpenCL/OpenGL，桌面系统使用 WebGPU，Apple 设备使用 Metal。NPU 加速是另一技术重点，框架封装了 Qualcomm AI Engine Direct 和 MediaTek APU 等厂商 SDK，开发者调用统一接口即可使用 NPU 算力。

Google 公布的基准测试数据（Snapdragon 8 Elite Gen 5，Gemma 3 1B 模型）：

首次 Token 响应时间：约 0.12 秒（1024 token 提示词）
预填充吞吐量：超过 11000 tokens/秒
解码速度：100 tokens/秒以上

与 llama.cpp 相比，LiteRT-LM 在 CPU 上解码速度提升约 3 倍，GPU 模式下提升约 7 倍。NPU 加速在预填充阶段相较 GPU 额外提升约 3 倍。

支持的模型

模型	量化方式	模型大小	上下文长度
Gemma 3 1B	INT4	557MB	4096
Gemma-3n-E2B	INT4	2965MB	4096
Gemma-3n-E4B	INT4	4235MB	4096
Phi-4-mini	INT8	3728MB	4096
Qwen2.5-1.5b	INT8	1524MB	4096
FunctionGemma-270M	INT8	288MB	1024
Gemma 4	-	-	-

FunctionGemma 系列专为函数调用场景优化，支持构建智能代理工作流。Gemma 4 系列于 2026 年 4 月新增支持，E2B 变体针对移动端优化，4B 和 12B 版本面向桌面级硬件。

开发接口

LiteRT-LM 提供多语言 API：

Kotlin：已稳定，推荐用于 Android 开发
Python：已稳定，适用于原型验证
C++：已稳定，面向高性能原生开发
Swift：开发中，用于 iOS/macOS 原生应用

快速尝鲜可通过命令行工具直接运行模型。使用 uv 安装后，一条命令即可从 Hugging Face 下载并执行模型：

uv tool install litert-lm

litert-lm run \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

为什么端侧AI重要？

对比项	云API方案	本地方案
隐私保护	数据需上传服务器	数据不出设备
响应延迟	依赖网络，存在延迟	本地即时响应
使用成本	按调用次数收费	零调用费用
可用性	依赖网络连接	离线可用

隐私敏感型应用：医疗记录分析、法律文档处理等场景中，数据不出设备是刚性需求。

高频使用场景：文本摘要、语法检查、代码补全等频繁调用功能，本地模型无边际成本。

离线/弱网环境：航空设备、工业控制系统等网络受限场景。

嵌入式与 IoT：智能家居中控、可穿戴设备等资源受限但需要 AI 能力的硬件。

项目信息

GitHub：https://github.com/google-ai-edge/LiteRT-LM
协议：Apache-2.0
版本：v0.10.1
语言：C++

LiteRT-LM 是 Google AI Edge 生态的组成部分，与 LiteRT 运行时、AI Edge Torch 转换工具、MediaPipe 任务框架共同构成从模型训练到端侧部署的工具链。

行业趋势

2026年本地AI Agent呈现爆发态势，端侧部署已成为AI应用的新战场。LiteRT-LM作为Google官方方案，对于计划开发移动AI应用的开发者而言，是值得优先考虑的基础设施。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

AtomGit开源社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性