老手机 本地部署 千问大模型 实机演示 Termux+Llama 新手完整安装教程(含代码)
千问大模型(Qwen)是字节跳动推出的开源大语言模型,支持多语言对话、代码生成、逻辑推理等功能。由于手机端硬件限制,本文优先推荐部署轻量级版本(Qwen2.5-0.5B),该版本仅需300MB左右存储空间,适配绝大多数安卓手机,通过 Termux 终端即可完成离线部署,无需 Root 权限,全程操作可复制、无复杂编译门槛。
本文将提供两种部署方案:Ollama 方案(新手首选,一键安装,自动管理模型)和 llama.cpp 方案(进阶版,手动编译,灵活调优),可根据自身手机配置和操作基础选择,全程附详细命令、避坑说明和问题排查,确保新手也能顺利完成部署。
一、部署前准备(必看)
1.1 设备要求(实测验证)
千问轻量级模型(Qwen2.5-0.5B)对手机配置要求较低,核心满足以下条件即可,避免因硬件不足导致部署失败:
-
内存:最低 2GB(理论底线),推荐 3GB 及以上(避免运行时内存不足报错
out of memory);实测 4GB 内存手机可稳定运行,2GB 内存手机加载后易崩溃。 -
存储:至少预留 1GB 空闲空间(含 Termux 环境、模型文件和依赖包),模型本身仅需 300MB 左右(GGUF 量化版)。
-
系统:Android 7.0 及以上,支持 ARM64-v8a 架构(绝大多数主流手机均满足;老旧设备需通过 CPU-Z 查看指令集,若仅支持 ARM64-v7a,建议选择 WebUI 方案,本文暂不涉及)。
-
网络:部署过程需联网下载依赖和模型文件,建议使用 WiFi(避免流量消耗),部署完成后可离线使用。
1.2 工具下载与安装
仅需下载 Termux 终端,无需其他额外工具,注意避免从应用商店下载(版本老旧,易出现兼容性问题):
-
下载渠道:优先从 F-Droid 或 GitHub 下载最新版 Termux(推荐 F-Droid,下载速度快,版本稳定)。
-
安装操作:下载后直接安装,首次启动会自动配置基础环境(约 1-2 分钟,耐心等待,不要强制关闭)。
-
初始设置:启动后,先输入
pkg update -y && pkg upgrade -y更新系统包(首次更新可能耗时较长,取决于网络速度),更新完成后重启 Termux(输入exit退出,重新打开即可)。
1.3 提前避坑提醒
1. 不要使用手机自带应用商店的 Termux 版本,易出现 pkg 命令失效、依赖安装失败等问题;
2. 部署过程中,每一条命令输入完成后,按回车执行,等待上一条命令执行完毕(终端不再输出新内容),再输入下一条,避免命令冲突;
3. 模型文件仅推荐 GGUF 格式(Q4_K_M 或 Q4_K_S 量化版),不要下载 .bin 或 .safetensors 格式,手机端无法直接加载;
4. 若执行命令时出现红色报错,不要慌张,先查看报错关键词(如 “permission denied”“not found”),对应下方问题排查部分解决。
二、方案一:Ollama 部署(新手首选,最简单)
Ollama 是一款轻量级大模型管理工具,支持一键安装、自动下载模型、后台运行,无需手动编译,完美适配 Termux,适合新手快速上手,全程仅需 5 步,可直接复制命令执行。
步骤 1:Termux 基础配置(换源 + 安装核心工具)
先更换国内源(解决下载慢、依赖拉取失败问题),再安装必要工具,命令依次执行:
# 1. 授予 Termux 存储权限(允许访问手机文件,弹出提示时点击“允许”) termux-setup-storage # 2. 更换国内清华源(替换默认源,加速下载) echo "deb https://mirrors.tuna.tsinghua.edu.cn/termux/apt/termux-main stable main" > $PREFIX/etc/apt/sources.list # 3. 更新系统包(确保源生效) pkg update -y && pkg upgrade -y # 4. 安装核心工具(curl、wget 用于下载文件,proot-distro 用于后续环境适配) pkg install -y curl wget proot-distro termux-exec
执行完成后,若未出现红色报错,说明基础配置成功。
步骤 2:安装 Ubuntu 容器(无需 Root,稳定运行 Ollama)
由于 Termux 原生环境对 Ollama 支持有限,需通过 Proot 安装 Ubuntu 容器(轻量级,约 200MB),命令依次执行:
# 1. 安装 Ubuntu 系统(默认最新 LTS 版本,自动下载安装) proot-distro install ubuntu # 2. 登录 Ubuntu 容器(必须加 --isolated 参数,避免环境变量冲突) proot-distro login ubuntu --isolated
登录成功后,终端提示符会变为 root@localhost:~#,说明已进入 Ubuntu 环境,后续操作均在此环境下执行。
步骤 3:安装 Ollama 工具
使用官方一键安装脚本,自动下载并配置 Ollama,无需手动处理依赖,命令如下:
# 一键安装 Ollama(国内网络可正常访问,若下载失败,多执行一次) curl -fsSL https://ollama.com/install.sh | sh
安装完成后,输入 ollama --version 验证,若输出 Ollama 版本号(如 v0.1.29),说明安装成功。
步骤 4:下载千问大模型(Qwen2.5-0.5B)
Ollama 支持一键下载千问模型,推荐下载轻量级的 Qwen2.5-0.5B 版本(适配手机),命令如下:
# 下载 Qwen2.5-0.5B 模型(约 300MB,下载速度取决于网络) ollama pull qwen2.5:0.5b
下载过程中,终端会显示下载进度,等待进度达到 100%,提示 “success” 即下载完成。若想尝试更大参数模型(如 Qwen2.5-7B),需确保手机内存 ≥8GB、存储 ≥5GB,命令改为 ollama pull qwen2.5:7b。
步骤 5:启动千问模型,开始对话
模型下载完成后,无需额外配置,直接启动交互模式,命令如下:
# 启动千问模型交互模式(直接进入对话界面) ollama run qwen2.5:0.5b
启动成功后,终端会显示 “>>>” 提示符,此时即可输入问题进行对话,例如:
-
输入:“你好,介绍一下自己”
-
模型会自动生成回复,回复速度取决于手机性能(一般 1-3 秒/句)。
退出对话:输入 /bye 即可退出交互模式,返回 Ubuntu 终端。
后台运行:若想让模型在后台运行,方便后续随时调用,输入 nohup ollama serve > ollama.log 2>&1 &,日志会保存到 ollama.log 文件中,无需一直保持终端打开。
三、方案二:llama.cpp 部署(进阶版,灵活调优)
llama.cpp 是一款轻量级大模型推理框架,支持手动编译、自定义参数调优,占用内存更低,适合有一定终端操作基础的用户。核心优势是可灵活调整推理参数,适配低配置手机,全程需手动编译框架、下载模型。
步骤 1:Termux 基础配置(同方案一,已配置可跳过)
# 1. 授予存储权限 termux-setup-storage # 2. 更换清华源 echo "deb https://mirrors.tuna.tsinghua.edu.cn/termux/apt/termux-main stable main" > $PREFIX/etc/apt/sources.list # 3. 更新系统包 pkg update -y && pkg upgrade -y # 4. 安装编译依赖(clang、make 用于编译 llama.cpp,git 用于克隆仓库) pkg install -y python curl git make clang vulkan-tools
步骤 2:克隆 llama.cpp 仓库并编译
llama.cpp 需手动克隆源码并编译,针对手机 ARM64 架构优化,命令依次执行:
# 1. 克隆 llama.cpp 仓库(从 GitHub 下载源码) git clone https://github.com/ggerganov/llama.cpp # 2. 进入仓库目录 cd llama.cpp # 3. 清理编译缓存(避免旧编译文件干扰) make clean # 4. 编译 llama.cpp(指定 ARM64 架构,适配手机,启用 Vulkan 加速) make TARGET=arm64-android -j$(nproc)
编译完成后,会在 llama.cpp/bin 目录下生成 main(推理程序)和 server(API 服务程序),若未出现 “error” 提示,说明编译成功。
常见报错解决:若出现 unknown argument: -ngl,说明编译未启用 Vulkan,需重新执行 pkg install vulkan-tools,再重新编译。
步骤 3:下载千问模型(GGUF 量化版)
必须下载 GGUF 格式的千问模型(Q4_K_M 量化版,体积小、内存占用低),推荐从 Hugging Face 镜像站下载,命令如下:
# 1. 回到 Termux 主目录,创建模型文件夹(用于存放模型文件) cd .. mkdir -p models cd models # 2. 下载 Qwen2.5-0.5B-Instruct Q4_K_M 量化版(约 300MB) wget https://hf-mirror.com/Qwen/Qwen2.5-0.5B-Instruct/resolve/main/qwen2.5-0.5b-instruct.Q4_K_M.gguf
下载完成后,模型文件会保存在 models 目录下,可输入 ls 查看是否存在该文件。
步骤 4:启动千问模型,进行推理
通过 llama.cpp 的 main 程序启动模型,可自定义上下文窗口大小、GPU 加速等参数,命令如下:
# 启动模型(关键参数说明) ../llama.cpp/bin/main -m ./qwen2.5-0.5b-instruct.Q4_K_M.gguf -ngl 99 -c 4096 -p "你好" # 参数解释: # -m:指定模型文件路径(必须正确,否则无法加载模型) # -ngl 99:强制启用全量 GPU 加速(提升推理速度,若报错可改为 -ngl 0,使用纯 CPU 推理) # -c 4096:设置上下文窗口大小(最大可处理 4096 个 tokens,数值越小,内存占用越低) # -p "你好":初始提问内容,可替换为任意问题
启动成功后,终端会显示模型回复,若想进入交互模式,可在命令末尾添加 --interactive,即:
../llama.cpp/bin/main -m ./qwen2.5-0.5b-instruct.Q4_K_M.gguf -ngl 99 -c 4096 --interactive
退出交互模式:按 Ctrl + C 即可。
四、常见问题排查(必看,解决 90% 部署失败问题)
1. 命令执行报错 “command not found”
原因:未安装对应工具,或命令输入错误(如拼写错误、少打符号)。
解决:确认命令拼写正确,若提示 “curl: command not found”,则输入 pkg install curl -y 安装对应工具;若为 Ubuntu 环境下报错,输入 apt install 工具名 -y 安装。
2. 模型加载失败,提示 “out of memory”
原因:手机内存不足,或模型参数过大,超出手机内存承载范围。
解决:关闭手机所有后台应用,确保可用内存 ≥1.8GB;若仍报错,更换更小参数的模型(如 Qwen2.5-0.5B),或调整 llama.cpp 启动参数(将 -c 4096 改为 -c 2048,减少内存占用)。
3. 下载模型或依赖时,速度极慢或下载失败
原因:网络不稳定,或未更换国内源。
解决:切换 WiFi 网络,重新执行下载命令;若仍失败,检查是否已更换 Termux 国内源(方案一步骤 1),或更换模型下载链接(将 hf-mirror.com 替换为 huggingface.co)。
4. 编译 llama.cpp 时,提示 “illegal instruction”
原因:手机 CPU 架构不支持 ARM64-v8a,仅支持 ARM64-v7a。
解决:放弃 llama.cpp 方案,改用方案一(Ollama),或更换支持 ARM64-v8a 的手机。
5. 启动模型后,回复乱码或无回复
原因:模型文件格式错误(未使用 GGUF 格式),或模型下载不完整。
解决:删除当前模型文件,重新下载 GGUF 格式的 Qwen2.5-0.5B 模型(确保文件名正确);若仍乱码,检查模型文件大小,若远小于 300MB,说明下载不完整,重新执行下载命令。
五、部署后优化建议(提升体验)
-
减少后台应用:部署和运行模型时,关闭手机所有后台应用,避免内存被占用,提升模型推理速度。
-
调整推理参数:llama.cpp 方案可根据手机性能调整
-c(上下文窗口)和-ngl(GPU 加速)参数,平衡速度和内存占用。 -
离线使用:部署完成后,可断开网络,模型仍能正常运行,无需联网(仅首次部署需联网下载依赖和模型)。
-
定期更新:若模型或工具出现 bug,可输入
ollama pull qwen2.5:0.5b(Ollama 方案)或重新克隆 llama.cpp 仓库编译(llama.cpp 方案),更新到最新版本。
六、总结
Termux 部署千问大模型,核心是选择适配手机的轻量级模型(Qwen2.5-0.5B),两种方案各有优势:Ollama 方案适合新手,一键安装、无需编译,全程傻瓜式操作;llama.cpp 方案适合进阶用户,可灵活调优,占用内存更低。
只要满足手机内存 ≥4GB、存储 ≥3GB,按照本文步骤操作,均可顺利完成部署,实现手机离线运行千问大模型,随时进行对话、代码生成等操作。若遇到其他未提及的问题,可留言反馈,或参考千问官方文档、llama.cpp 官方仓库寻求解决方案。
老手机 本地部署小龙虾OpenClaw(使用本地千问大模型)
大模型交流群:959957732
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)