新手必看，Ryzen AI 上运行 Llama 模型的保姆级步骤

小助手

158人浏览 · 2026-05-19 16:04:00

小助手 · 2026-05-19 16:04:00 发布

驱动更新与环境准备

在 Ryzen AI 平台上运行大语言模型，第一步并非直接下载模型，而是确保底层驱动与软件栈处于最佳状态。AMD Ryzen AI 系列处理器（尤其是 Strix Halo 架构）依赖专用的 NPU 来分担推理负载，若驱动版本过旧，不仅无法调用 NPU 加速，甚至可能导致推理速度远低于预期。

请访问 AMD 官网开发者资源页面，下载并安装最新版的 Ryzen AI Software 包。安装完成后，务必重启系统以确保内核模块正确加载。验证安装是否成功的最快方式是在终端输入 ryzen-ai-smi（或查看设备管理器中 NPU 状态），确认 NPU 处于活跃状态且无报错。对于 Windows 用户，建议同时更新显卡驱动至 Adrenalin 最新版，因为部分推理后端会协同调用 GPU 进行显存管理。

环境配置方面，推荐使用 Conda 创建独立的 Python 虚拟环境，避免污染系统全局库。创建一个基于 Python 3.10 或 3.11 的环境，并安装 onnxruntime-directml 或支持 ROCm/NPU 后端的 llama-cpp-python 库。这一步是后续流畅运行的基石，切勿跳过。

conda create -n ryzen-ai python=3.11
conda activate ryzen-ai
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
# 若需特定后端支持，请根据官方文档调整安装参数

模型下载与量化选择

对于新手而言，直接在本地跑通全精度模型既不现实也无必要。Ryzen AI 的优势在于高效处理量化模型。我们需要下载经过 INT4 或 INT8 量化的 Llama 3 或 Qwen 模型文件（通常为 .gguf 格式）。这种量化方式能在几乎不损失智能的前提下，将显存占用降低 60% 以上，使得 96GB 统一内存架构的 Strix Halo 能轻松容纳超大上下文窗口。

推荐从 Hugging Face 或 ModelScope 搜索带有 GGUF 和 Q4_K_M 标签的文件。例如，寻找 Llama-3-8B-Instruct.Q4_K_M.gguf。下载时请注意文件大小，8B 参数的 INT4 模型通常在 5GB 左右，非常适合笔记本存储。将下载好的模型文件放置在项目目录下的 models 文件夹中，保持路径简洁，避免中文路径引发的编码错误。

执行首条推理指令

一切就绪后，我们可以编写一个简单的 Python 脚本来启动推理。以下代码展示了如何利用 llama-cpp-python 加载模型并进行对话。这段代码会自动检测硬件资源，并尝试将计算任务分配给 NPU 或 CPU/GPU 混合模式。

from llama_cpp import Llama

# 初始化模型，指定上下文长度和线程数
llm = Llama(
    model_path="./models/Llama-3-8B-Instruct.Q4_K_M.gguf",
    n_ctx=4096,          # 上下文窗口大小
    n_threads=8,         # 根据物理核心数调整
    n_gpu_layers=0       # 若需强制 NPU/CPU 推理可设为 0，具体视后端支持而定
)

output = llm(
    "Q: 如何在 Ryzen AI 上优化本地部署？\nA:",
    max_tokens=128,
    stop=["Q:", "\n"],
    echo=True
)

print(output["choices"][0]["text"])