老手机本地部署千问大模型实机演示 Termux+Llama 新手完整安装教程（含代码）

wulechun

962人浏览 · 2026-04-03 14:41:30

wulechun · 2026-04-03 14:41:30 发布

千问大模型（Qwen）是字节跳动推出的开源大语言模型，支持多语言对话、代码生成、逻辑推理等功能。由于手机端硬件限制，本文优先推荐部署轻量级版本（Qwen2.5-0.5B），该版本仅需300MB左右存储空间，适配绝大多数安卓手机，通过 Termux 终端即可完成离线部署，无需 Root 权限，全程操作可复制、无复杂编译门槛。

本文将提供两种部署方案：Ollama 方案（新手首选，一键安装，自动管理模型）和 llama.cpp 方案（进阶版，手动编译，灵活调优），可根据自身手机配置和操作基础选择，全程附详细命令、避坑说明和问题排查，确保新手也能顺利完成部署。

一、部署前准备（必看）

1.1 设备要求（实测验证）

千问轻量级模型（Qwen2.5-0.5B）对手机配置要求较低，核心满足以下条件即可，避免因硬件不足导致部署失败：

内存：最低 2GB（理论底线），推荐 3GB 及以上（避免运行时内存不足报错 out of memory）；实测 4GB 内存手机可稳定运行，2GB 内存手机加载后易崩溃。
存储：至少预留 1GB 空闲空间（含 Termux 环境、模型文件和依赖包），模型本身仅需 300MB 左右（GGUF 量化版）。
系统：Android 7.0 及以上，支持 ARM64-v8a 架构（绝大多数主流手机均满足；老旧设备需通过 CPU-Z 查看指令集，若仅支持 ARM64-v7a，建议选择 WebUI 方案，本文暂不涉及）。
网络：部署过程需联网下载依赖和模型文件，建议使用 WiFi（避免流量消耗），部署完成后可离线使用。

1.2 工具下载与安装

仅需下载 Termux 终端，无需其他额外工具，注意避免从应用商店下载（版本老旧，易出现兼容性问题）：

下载渠道：优先从 F-Droid 或 GitHub 下载最新版 Termux（推荐 F-Droid，下载速度快，版本稳定）。
安装操作：下载后直接安装，首次启动会自动配置基础环境（约 1-2 分钟，耐心等待，不要强制关闭）。
初始设置：启动后，先输入 pkg update -y && pkg upgrade -y 更新系统包（首次更新可能耗时较长，取决于网络速度），更新完成后重启 Termux（输入 exit 退出，重新打开即可）。

1.3 提前避坑提醒

1. 不要使用手机自带应用商店的 Termux 版本，易出现 pkg 命令失效、依赖安装失败等问题；

2. 部署过程中，每一条命令输入完成后，按回车执行，等待上一条命令执行完毕（终端不再输出新内容），再输入下一条，避免命令冲突；

3. 模型文件仅推荐 GGUF 格式（Q4_K_M 或 Q4_K_S 量化版），不要下载 .bin 或 .safetensors 格式，手机端无法直接加载；

4. 若执行命令时出现红色报错，不要慌张，先查看报错关键词（如 “permission denied”“not found”），对应下方问题排查部分解决。

二、方案一：Ollama 部署（新手首选，最简单）

Ollama 是一款轻量级大模型管理工具，支持一键安装、自动下载模型、后台运行，无需手动编译，完美适配 Termux，适合新手快速上手，全程仅需 5 步，可直接复制命令执行。

步骤 1：Termux 基础配置（换源 + 安装核心工具）

先更换国内源（解决下载慢、依赖拉取失败问题），再安装必要工具，命令依次执行：

# 1. 授予 Termux 存储权限（允许访问手机文件，弹出提示时点击“允许”） termux-setup-storage # 2. 更换国内清华源（替换默认源，加速下载） echo "deb https://mirrors.tuna.tsinghua.edu.cn/termux/apt/termux-main stable main" > $PREFIX/etc/apt/sources.list # 3. 更新系统包（确保源生效） pkg update -y && pkg upgrade -y # 4. 安装核心工具（curl、wget 用于下载文件，proot-distro 用于后续环境适配） pkg install -y curl wget proot-distro termux-exec

执行完成后，若未出现红色报错，说明基础配置成功。

步骤 2：安装 Ubuntu 容器（无需 Root，稳定运行 Ollama）

由于 Termux 原生环境对 Ollama 支持有限，需通过 Proot 安装 Ubuntu 容器（轻量级，约 200MB），命令依次执行：

# 1. 安装 Ubuntu 系统（默认最新 LTS 版本，自动下载安装） proot-distro install ubuntu # 2. 登录 Ubuntu 容器（必须加 --isolated 参数，避免环境变量冲突） proot-distro login ubuntu --isolated

登录成功后，终端提示符会变为 root@localhost:~#，说明已进入 Ubuntu 环境，后续操作均在此环境下执行。

步骤 3：安装 Ollama 工具

使用官方一键安装脚本，自动下载并配置 Ollama，无需手动处理依赖，命令如下：

# 一键安装 Ollama（国内网络可正常访问，若下载失败，多执行一次） curl -fsSL https://ollama.com/install.sh | sh

安装完成后，输入 ollama --version 验证，若输出 Ollama 版本号（如 v0.1.29），说明安装成功。

步骤 4：下载千问大模型（Qwen2.5-0.5B）

Ollama 支持一键下载千问模型，推荐下载轻量级的 Qwen2.5-0.5B 版本（适配手机），命令如下：

# 下载 Qwen2.5-0.5B 模型（约 300MB，下载速度取决于网络） ollama pull qwen2.5:0.5b

下载过程中，终端会显示下载进度，等待进度达到 100%，提示 “success” 即下载完成。若想尝试更大参数模型（如 Qwen2.5-7B），需确保手机内存 ≥8GB、存储 ≥5GB，命令改为 ollama pull qwen2.5:7b。

步骤 5：启动千问模型，开始对话

模型下载完成后，无需额外配置，直接启动交互模式，命令如下：

# 启动千问模型交互模式（直接进入对话界面） ollama run qwen2.5:0.5b

启动成功后，终端会显示 “>>>” 提示符，此时即可输入问题进行对话，例如：

输入：“你好，介绍一下自己”
模型会自动生成回复，回复速度取决于手机性能（一般 1-3 秒/句）。

退出对话：输入 /bye 即可退出交互模式，返回 Ubuntu 终端。

后台运行：若想让模型在后台运行，方便后续随时调用，输入 nohup ollama serve > ollama.log 2>&1 &，日志会保存到 ollama.log 文件中，无需一直保持终端打开。

三、方案二：llama.cpp 部署（进阶版，灵活调优）

llama.cpp 是一款轻量级大模型推理框架，支持手动编译、自定义参数调优，占用内存更低，适合有一定终端操作基础的用户。核心优势是可灵活调整推理参数，适配低配置手机，全程需手动编译框架、下载模型。

步骤 1：Termux 基础配置（同方案一，已配置可跳过）

# 1. 授予存储权限 termux-setup-storage # 2. 更换清华源 echo "deb https://mirrors.tuna.tsinghua.edu.cn/termux/apt/termux-main stable main" > $PREFIX/etc/apt/sources.list # 3. 更新系统包 pkg update -y && pkg upgrade -y # 4. 安装编译依赖（clang、make 用于编译 llama.cpp，git 用于克隆仓库） pkg install -y python curl git make clang vulkan-tools

步骤 2：克隆 llama.cpp 仓库并编译

llama.cpp 需手动克隆源码并编译，针对手机 ARM64 架构优化，命令依次执行：

# 1. 克隆 llama.cpp 仓库（从 GitHub 下载源码） git clone https://github.com/ggerganov/llama.cpp # 2. 进入仓库目录 cd llama.cpp # 3. 清理编译缓存（避免旧编译文件干扰） make clean # 4. 编译 llama.cpp（指定 ARM64 架构，适配手机，启用 Vulkan 加速） make TARGET=arm64-android -j$(nproc)

编译完成后，会在 llama.cpp/bin 目录下生成 main（推理程序）和 server（API 服务程序），若未出现 “error” 提示，说明编译成功。

常见报错解决：若出现 unknown argument: -ngl，说明编译未启用 Vulkan，需重新执行 pkg install vulkan-tools，再重新编译。

步骤 3：下载千问模型（GGUF 量化版）

必须下载 GGUF 格式的千问模型（Q4_K_M 量化版，体积小、内存占用低），推荐从 Hugging Face 镜像站下载，命令如下：

# 1. 回到 Termux 主目录，创建模型文件夹（用于存放模型文件） cd .. mkdir -p models cd models # 2. 下载 Qwen2.5-0.5B-Instruct Q4_K_M 量化版（约 300MB） wget https://hf-mirror.com/Qwen/Qwen2.5-0.5B-Instruct/resolve/main/qwen2.5-0.5b-instruct.Q4_K_M.gguf

下载完成后，模型文件会保存在 models 目录下，可输入 ls 查看是否存在该文件。

步骤 4：启动千问模型，进行推理

通过 llama.cpp 的 main 程序启动模型，可自定义上下文窗口大小、GPU 加速等参数，命令如下：

# 启动模型（关键参数说明） ../llama.cpp/bin/main -m ./qwen2.5-0.5b-instruct.Q4_K_M.gguf -ngl 99 -c 4096 -p "你好" # 参数解释： # -m：指定模型文件路径（必须正确，否则无法加载模型） # -ngl 99：强制启用全量 GPU 加速（提升推理速度，若报错可改为 -ngl 0，使用纯 CPU 推理） # -c 4096：设置上下文窗口大小（最大可处理 4096 个 tokens，数值越小，内存占用越低） # -p "你好"：初始提问内容，可替换为任意问题

启动成功后，终端会显示模型回复，若想进入交互模式，可在命令末尾添加 --interactive，即：

../llama.cpp/bin/main -m ./qwen2.5-0.5b-instruct.Q4_K_M.gguf -ngl 99 -c 4096 --interactive

退出交互模式：按 Ctrl + C 即可。

四、常见问题排查（必看，解决 90% 部署失败问题）

1. 命令执行报错 “command not found”

原因：未安装对应工具，或命令输入错误（如拼写错误、少打符号）。

解决：确认命令拼写正确，若提示 “curl: command not found”，则输入 pkg install curl -y 安装对应工具；若为 Ubuntu 环境下报错，输入 apt install 工具名 -y 安装。

2. 模型加载失败，提示 “out of memory”

原因：手机内存不足，或模型参数过大，超出手机内存承载范围。

解决：关闭手机所有后台应用，确保可用内存 ≥1.8GB；若仍报错，更换更小参数的模型（如 Qwen2.5-0.5B），或调整 llama.cpp 启动参数（将 -c 4096 改为 -c 2048，减少内存占用）。

3. 下载模型或依赖时，速度极慢或下载失败

原因：网络不稳定，或未更换国内源。

解决：切换 WiFi 网络，重新执行下载命令；若仍失败，检查是否已更换 Termux 国内源（方案一步骤 1），或更换模型下载链接（将 hf-mirror.com 替换为 huggingface.co）。

4. 编译 llama.cpp 时，提示 “illegal instruction”

原因：手机 CPU 架构不支持 ARM64-v8a，仅支持 ARM64-v7a。

解决：放弃 llama.cpp 方案，改用方案一（Ollama），或更换支持 ARM64-v8a 的手机。

5. 启动模型后，回复乱码或无回复

原因：模型文件格式错误（未使用 GGUF 格式），或模型下载不完整。

解决：删除当前模型文件，重新下载 GGUF 格式的 Qwen2.5-0.5B 模型（确保文件名正确）；若仍乱码，检查模型文件大小，若远小于 300MB，说明下载不完整，重新执行下载命令。

五、部署后优化建议（提升体验）

减少后台应用：部署和运行模型时，关闭手机所有后台应用，避免内存被占用，提升模型推理速度。
调整推理参数：llama.cpp 方案可根据手机性能调整 -c（上下文窗口）和 -ngl（GPU 加速）参数，平衡速度和内存占用。
离线使用：部署完成后，可断开网络，模型仍能正常运行，无需联网（仅首次部署需联网下载依赖和模型）。
定期更新：若模型或工具出现 bug，可输入 ollama pull qwen2.5:0.5b（Ollama 方案）或重新克隆 llama.cpp 仓库编译（llama.cpp 方案），更新到最新版本。

六、总结

Termux 部署千问大模型，核心是选择适配手机的轻量级模型（Qwen2.5-0.5B），两种方案各有优势：Ollama 方案适合新手，一键安装、无需编译，全程傻瓜式操作；llama.cpp 方案适合进阶用户，可灵活调优，占用内存更低。

只要满足手机内存 ≥4GB、存储 ≥3GB，按照本文步骤操作，均可顺利完成部署，实现手机离线运行千问大模型，随时进行对话、代码生成等操作。若遇到其他未提及的问题，可留言反馈，或参考千问官方文档、llama.cpp 官方仓库寻求解决方案。

老手机本地部署小龙虾OpenClaw（使用本地千问大模型）

大模型交流群：959957732

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年零基础轻松搞定Hermes Agent/OpenClaw Token Plan全方案集全解

OpenClaw并非传统的聊天机器人，而是一款本地优先、云端适配的AI自动化代理——它以大语言模型为“大脑”，以Skills插件生态为“手脚”，能理解自然语言指令，自主完成网页操作、邮件管理、文档处理、多平台协同等具象化任务，无需编写复杂的自动化脚本。零代码门槛：通过自然语言下达指令，无需掌握Python/Java等编程技能；多端适配：支持阿里云服务器、本地设备、无影云电脑等多环境部署；生态扩展：