AMD RX 9070 本地部署大模型实战：RDNA4 显卡从零跑起 LLM

爪哇岛原住民

1195人浏览 · 2026-04-18 01:30:29

爪哇岛原住民 · 2026-04-18 01:30:29 发布

网上 CUDA 部署教程一搜一大把，AMD 显卡的却寥寥无几。本文记录我在 AMD Radeon RX 9070（RDNA4 架构，16GB 显存）上从零部署本地大模型的完整过程，包括环境搭建、踩坑实录和最终方案。

前言

手上一张 RX 9070，16GB 显存，想跑本地大模型。NVIDIA 那边 cuda 装完就能跑，AMD 这边就得折腾 ROCm 了。而且 RX 9070 是新一代 RDNA4 架构（gfx1201），ROCm 还没有原生支持，坑不少。

折腾完把完整流程记录下来，希望能帮到同样用 AMD 卡的朋友。

环境一览

项目	配置
显卡	AMD Radeon RX 9070 (16GB VRAM)
架构	RDNA4 / gfx1201
系统	Ubuntu 24.04.4 LTS
ROCm	7.2.1
Python	3.12

一、安装 ROCm

ROCm 是 AMD 的 GPU 计算平台，相当于 AMD 版的 CUDA。

1.1 添加仓库并安装

# 导入 AMD GPG 密钥
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -

# 添加仓库
echo "deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.2/ ubuntu main" | sudo tee /etc/apt/sources.list.d/rocm.list

# 安装
sudo apt-get update
sudo apt-get install -y rocm-libs rocm-dev

1.2 配置环境变量

写入 ~/.bashrc：

export ROCM_PATH=/opt/rocm
export PATH=$ROCM_PATH/bin:$PATH

1.3 GPU 权限

这一步很多人忘，没有 render 组权限 GPU 就用不了：

sudo usermod -aG render $USER

执行后必须注销重新登录，否则不生效。

验证：

rocm-smi

看到显卡信息就说明 ROCm 装好了。

二、RDNA4 最关键的配置

这是我踩的第一个大坑。

RX 9070 是 RDNA4 架构（gfx1201），ROCm 目前还没有原生支持。需要通过环境变量 HSA_OVERRIDE_GFX_VERSION 来做兼容性映射。

网上有的教程说设成 11.0.0，这是错的。实测 11.0.0 会导致模型加载后推理无输出或者直接崩溃。

正确配置：

# 写入 ~/.bashrc
export HSA_OVERRIDE_GFX_VERSION=12.0.1

划重点：RDNA4 必须设 HSA_OVERRIDE_GFX_VERSION=12.0.1，不是 11.0.0！

三、部署 Ollama

Ollama 是最简单的方案，一行命令拉模型，一行命令跑起来。

3.1 安装 GPU 版 Ollama

第二个坑来了。

官方安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

在 AMD 平台上，这个脚本可能装的是 CPU-only 版本。装完跑模型你会发现 CPU 风扇狂转，GPU 一动不动。

需要安装带 ROCm 支持的 GPU 版本。从 Ollama 的完整发布包中获取：

mkdir -p ~/ollama-full/bin
# 将 GPU 版 ollama 二进制放入 ~/ollama-full/bin/
chmod +x ~/ollama-full/bin/ollama

设为系统默认（优先级高于旧版）：

mkdir -p ~/bin
cp ~/ollama-full/bin/ollama ~/bin/ollama
chmod +x ~/bin/ollama

# ~/.bashrc 中添加，放在 PATH 最前面
echo 'export PATH="$HOME/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

# 验证版本
ollama --version  # 应显示 0.21.0（GPU版）

3.2 启动 Ollama

OLLAMA_HOST=127.0.0.1:11435 \
OLLAMA_MODELS=~/.ollama/models \
ROCM_PATH=/opt/rocm \
HSA_OVERRIDE_GFX_VERSION=12.0.1 \
~/ollama-full/bin/ollama serve

端口用了 11435 而不是默认的 11434，是为了和旧的 CPU 版区分开。

3.3 拉模型

# 中文场景推荐
ollama pull qwen2.5:7b

3.4 跑起来试试

ollama run qwen2.5:7b

看到模型回复，再开个终端看 rocm-smi，VRAM 占用上去、GPU 利用率有变化，就说明 GPU 推理跑通了。

3.5 推理速度

实测两个模型在 RX 9070 上的表现：

模型	Prompt 评估	生成速度	显存占用
gpt-oss:20b (MXFP4)	~941 tokens/s	~100 tokens/s	~6.4 GB
qwen2.5:7b (Q4_K_M)	~958 tokens/s	~89 tokens/s	~4.7 GB

日常对话完全够用。

四、部署 Open WebUI（聊天界面）

命令行聊天体验有限，装个 Web 界面。

4.1 安装

source venv/bin/activate
pip install open-webui

4.2 启动

export HSA_OVERRIDE_GFX_VERSION=12.0.1
export ROCM_PATH=/opt/rocm
export OLLAMA_BASE_URL=http://127.0.0.1:11435
export RAG_EMBEDDING_ENGINE=ollama
export RAG_EMBEDDING_MODEL=nomic-embed-text

open-webui serve --host 0.0.0.0 --port 8080

第三个坑：RAG_EMBEDDING_ENGINE=ollama 这行很重要。不加的话 Open WebUI 会自动从 HuggingFace 下载嵌入模型，浪费时间和空间。

4.3 访问

浏览器打开 http://localhost:8080，首次需要注册管理员账号（本地注册，不需要联网）。

注册后就能看到 Ollama 里已下载的模型，开始聊天。

五、完整启动流程

日常使用就两步：

# 终端1：启动 Ollama
OLLAMA_HOST=127.0.0.1:11435 \
OLLAMA_MODELS=~/.ollama/models \
ROCM_PATH=/opt/rocm \
HSA_OVERRIDE_GFX_VERSION=12.0.1 \
~/ollama-full/bin/ollama serve

# 终端2：启动 Open WebUI
cd ~/dev/project/amd-ai
source venv/bin/activate
export HSA_OVERRIDE_GFX_VERSION=12.0.1
export ROCM_PATH=/opt/rocm
export OLLAMA_BASE_URL=http://127.0.0.1:11435
export RAG_EMBEDDING_ENGINE=ollama
export RAG_EMBEDDING_MODEL=nomic-embed-text
open-webui serve --host 0.0.0.0 --port 8080

# 浏览器打开 http://localhost:8080

六、踩坑总结

坑	症状	解决方案
HSA_OVERRIDE_GFX_VERSION 设错	模型加载后无输出/崩溃	RDNA4 必须设 12.0.1，不是 11.0.0
Ollama 装了 CPU 版	GPU 利用率 0%，CPU 满载	用 GPU 版 Ollama 二进制
没有 render 组权限	GPU 无法访问	`sudo usermod -aG render $USER`，重新登录
Open WebUI 自动下嵌入模型	首次启动很慢	设置 `RAG_EMBEDDING_ENGINE=ollama`