AMD RX 9070 本地部署大模型实战:RDNA4 显卡从零跑起 LLM
网上 CUDA 部署教程一搜一大把,AMD 显卡的却寥寥无几。本文记录我在 AMD Radeon RX 9070(RDNA4 架构,16GB 显存)上从零部署本地大模型的完整过程,包括环境搭建、踩坑实录和最终方案。
前言
手上一张 RX 9070,16GB 显存,想跑本地大模型。NVIDIA 那边 cuda 装完就能跑,AMD 这边就得折腾 ROCm 了。而且 RX 9070 是新一代 RDNA4 架构(gfx1201),ROCm 还没有原生支持,坑不少。
折腾完把完整流程记录下来,希望能帮到同样用 AMD 卡的朋友。
环境一览
| 项目 | 配置 |
|---|---|
| 显卡 | AMD Radeon RX 9070 (16GB VRAM) |
| 架构 | RDNA4 / gfx1201 |
| 系统 | Ubuntu 24.04.4 LTS |
| ROCm | 7.2.1 |
| Python | 3.12 |
一、安装 ROCm
ROCm 是 AMD 的 GPU 计算平台,相当于 AMD 版的 CUDA。
1.1 添加仓库并安装
# 导入 AMD GPG 密钥
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
# 添加仓库
echo "deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.2/ ubuntu main" | sudo tee /etc/apt/sources.list.d/rocm.list
# 安装
sudo apt-get update
sudo apt-get install -y rocm-libs rocm-dev
1.2 配置环境变量
写入 ~/.bashrc:
export ROCM_PATH=/opt/rocm
export PATH=$ROCM_PATH/bin:$PATH
1.3 GPU 权限
这一步很多人忘,没有 render 组权限 GPU 就用不了:
sudo usermod -aG render $USER
执行后必须注销重新登录,否则不生效。
验证:
rocm-smi
看到显卡信息就说明 ROCm 装好了。
二、RDNA4 最关键的配置
这是我踩的第一个大坑。
RX 9070 是 RDNA4 架构(gfx1201),ROCm 目前还没有原生支持。需要通过环境变量 HSA_OVERRIDE_GFX_VERSION 来做兼容性映射。
网上有的教程说设成 11.0.0,这是错的。实测 11.0.0 会导致模型加载后推理无输出或者直接崩溃。
正确配置:
# 写入 ~/.bashrc
export HSA_OVERRIDE_GFX_VERSION=12.0.1
划重点:RDNA4 必须设 HSA_OVERRIDE_GFX_VERSION=12.0.1,不是 11.0.0!
三、部署 Ollama
Ollama 是最简单的方案,一行命令拉模型,一行命令跑起来。
3.1 安装 GPU 版 Ollama
第二个坑来了。
官方安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
在 AMD 平台上,这个脚本可能装的是 CPU-only 版本。装完跑模型你会发现 CPU 风扇狂转,GPU 一动不动。
需要安装带 ROCm 支持的 GPU 版本。从 Ollama 的完整发布包中获取:
mkdir -p ~/ollama-full/bin
# 将 GPU 版 ollama 二进制放入 ~/ollama-full/bin/
chmod +x ~/ollama-full/bin/ollama
设为系统默认(优先级高于旧版):
mkdir -p ~/bin
cp ~/ollama-full/bin/ollama ~/bin/ollama
chmod +x ~/bin/ollama
# ~/.bashrc 中添加,放在 PATH 最前面
echo 'export PATH="$HOME/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
# 验证版本
ollama --version # 应显示 0.21.0(GPU版)
3.2 启动 Ollama
OLLAMA_HOST=127.0.0.1:11435 \
OLLAMA_MODELS=~/.ollama/models \
ROCM_PATH=/opt/rocm \
HSA_OVERRIDE_GFX_VERSION=12.0.1 \
~/ollama-full/bin/ollama serve
端口用了 11435 而不是默认的 11434,是为了和旧的 CPU 版区分开。
3.3 拉模型
# 中文场景推荐
ollama pull qwen2.5:7b
3.4 跑起来试试
ollama run qwen2.5:7b
看到模型回复,再开个终端看 rocm-smi,VRAM 占用上去、GPU 利用率有变化,就说明 GPU 推理跑通了。
3.5 推理速度
实测两个模型在 RX 9070 上的表现:
| 模型 | Prompt 评估 | 生成速度 | 显存占用 |
|---|---|---|---|
| gpt-oss:20b (MXFP4) | ~941 tokens/s | ~100 tokens/s | ~6.4 GB |
| qwen2.5:7b (Q4_K_M) | ~958 tokens/s | ~89 tokens/s | ~4.7 GB |
日常对话完全够用。
四、部署 Open WebUI(聊天界面)
命令行聊天体验有限,装个 Web 界面。
4.1 安装
source venv/bin/activate
pip install open-webui
4.2 启动
export HSA_OVERRIDE_GFX_VERSION=12.0.1
export ROCM_PATH=/opt/rocm
export OLLAMA_BASE_URL=http://127.0.0.1:11435
export RAG_EMBEDDING_ENGINE=ollama
export RAG_EMBEDDING_MODEL=nomic-embed-text
open-webui serve --host 0.0.0.0 --port 8080
第三个坑:
RAG_EMBEDDING_ENGINE=ollama这行很重要。不加的话 Open WebUI 会自动从 HuggingFace 下载嵌入模型,浪费时间和空间。
4.3 访问
浏览器打开 http://localhost:8080,首次需要注册管理员账号(本地注册,不需要联网)。
注册后就能看到 Ollama 里已下载的模型,开始聊天。
五、完整启动流程
日常使用就两步:
# 终端1:启动 Ollama
OLLAMA_HOST=127.0.0.1:11435 \
OLLAMA_MODELS=~/.ollama/models \
ROCM_PATH=/opt/rocm \
HSA_OVERRIDE_GFX_VERSION=12.0.1 \
~/ollama-full/bin/ollama serve
# 终端2:启动 Open WebUI
cd ~/dev/project/amd-ai
source venv/bin/activate
export HSA_OVERRIDE_GFX_VERSION=12.0.1
export ROCM_PATH=/opt/rocm
export OLLAMA_BASE_URL=http://127.0.0.1:11435
export RAG_EMBEDDING_ENGINE=ollama
export RAG_EMBEDDING_MODEL=nomic-embed-text
open-webui serve --host 0.0.0.0 --port 8080
# 浏览器打开 http://localhost:8080
六、踩坑总结
| 坑 | 症状 | 解决方案 |
|---|---|---|
| HSA_OVERRIDE_GFX_VERSION 设错 | 模型加载后无输出/崩溃 | RDNA4 必须设 12.0.1,不是 11.0.0 |
| Ollama 装了 CPU 版 | GPU 利用率 0%,CPU 满载 | 用 GPU 版 Ollama 二进制 |
| 没有 render 组权限 | GPU 无法访问 | sudo usermod -aG render $USER,重新登录 |
| Open WebUI 自动下嵌入模型 | 首次启动很慢 | 设置 RAG_EMBEDDING_ENGINE=ollama |
七、效果
最终跑起来后的体验:RX 9070 跑 20B 量化模型 prompt 评估近千 tokens/s,生成 ~100 tokens/s,对话响应很快,日常使用完全没问题。AMD 显卡确实能跑大模型,只是配置比 NVIDIA 多几步。
希望这篇能帮到用 AMD 卡的朋友。有问题欢迎评论区交流。
环境:Ubuntu 24.04 / RX 9070 16GB / ROCm 7.2.1 / Ollama 0.21.0 / Open WebUI 0.8.12
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)