大模型集成显卡支持及NPU支持
chap1 独显
在 Windows AMD 笔记本上让 Ollama 用上 AMD 显卡,核心是:更新 AMD 驱动 + 安装 ROCm 6.1+ + 用最新版 Ollama + 强制用独显。
一、先确认你的显卡是否被支持
Ollama Windows 只支持以下 AMD 独显(集显不支持):
- RX 7000 系列:7900 XTX/XT/GRE、7800 XT、7700 XT、7600 XT/7600
- RX 6000 系列:6950 XT、6900 XTX/XT、6800 XT/6800
- Radeon PRO 系列:W7900/W7800/W7700/W7600、W6900X 等
二、安装 / 更新必备软件
1. 更新 AMD 显卡驱动
- 打开 AMD Software: Adrenalin Edition → 检查更新
- 或去 AMD 官网下载最新版驱动:https://www.amd.com/en/support
- 必须是 2025 年后、支持 ROCm 6.1+ 的驱动
2. 安装 ROCm 6.1+(关键)
Ollama Windows 依赖 ROCm 6.1 或更高:
- 下载:https://rocm.docs.amd.com/projects/install-on-windows/en/latest/install/install.html
- 安装时勾选 HIP SDK 和 ROCm Libraries
- 安装后重启电脑
3. 安装 / 更新 Ollama(v0.17.0+)
- 官网下载最新版:https://ollama.com/download/windows
- 安装后在 PowerShell 验证版本:
powershell
确保 ≥ 0.17.0ollama version
chap2 集显
一、官方态度与计划(2026.3)
- 官方 Windows 版:只支持 AMD 独显(RX 6000/7000、Radeon PRO),不支持集显。
- 路线图:Ollama 官方未公布 Windows 下 AMD 集显支持时间表,短期内(2026 上半年)可能性低。
- 底层原因:Windows 上 ROCm 对 APU / 集显支持不完善,Ollama 优先适配独显生态。
二、Windows 直接用 AMD 集显跑 Ollama(魔改方案)
方案 1:ollama-for-amd 魔改版(推荐,780M/790M 可用)
社区项目 ollama-for-amd 已适配 AMD 集显(如 780M、790M,gfx1103)。
- 卸载官方 Ollama。
- 下载魔改版:https://github.com/likelovewant/ollama-for-amd/releases
- 安装 / 解压后,替换对应集显的 ROCm 库(如 780M 用
gfx1103版)。 - 重启服务,即可用集显跑模型。
- 优点:原生 Windows、无需虚拟机、速度比 CPU 快很多。
- 缺点:非官方、需手动替换文件、稳定性一般。
方案 2:llama.cpp/ LM Studio(纯 CPU + 集显 混合加速)
- llama.cpp:原生支持 AMD GPU(包括集显),用 OpenCL 或 HIP 加速,适合轻量模型(1.5B–3B)。
- LM Studio:带 GUI,自动适配 AMD 集显,一键下载运行,适合新手。
- 命令示例(llama.cpp):
bash
运行
./main -m llama3.2-3b-q4_k_m.gguf -ngl 20 --gpu amd
三、WSL2 + Linux(最稳定、性能最好)
在 Windows 内置 Linux 子系统中,ROCm 对 AMD 集显支持更好,可稳定跑 Ollama。
- 启用 WSL2:
powershell
wsl --install -d Ubuntu-22.04 - 在 Ubuntu 中安装 Ollama:
bash
运行
curl -fsSL https://ollama.com/install.sh | sh - 安装 ROCm 并启用集显:
bash
运行
sudo apt install rocm-hip-sdk export HSA_OVERRIDE_GFX_VERSION=gfx1103 # 780M 填 gfx1103 - 运行模型:
bash
运行
ollama run llama3.2:3b
- 优点:官方支持、稳定、性能接近原生 Linux。
- 缺点:占用磁盘(20GB+)、需熟悉 Linux 命令。
四、纯 CPU 方案(最稳妥,无 GPU 依赖)
- 直接用官方 Ollama,跑轻量量化模型(1.5B–3B,Q4 及以下)。
- 示例:
bash
运行
ollama run qwen:1.8b ollama run phi3:mini - 适合:仅做简单问答、摘要,对速度要求不高。
chap3 LM Studio
LM Studio 对 AMD 集显(核显)支持很友好,Windows 下用 Vulkan 后端即可稳定启用,适合 780M/790M、Vega 等核显,比纯 CPU 快很多。
一、前期准备(必做)
- 更新 AMD 驱动
- 安装最新 Adrenalin 版驱动(2025 年后版本)
- 打开 AMD Software → 检查更新并安装
- 安装 LM Studio
- 官网下载:https://lmstudio.ai/download
- 安装后打开,首次启动会自动初始化环境
- 模型选择
- 优先选 GGUF 格式、Q4_K_M 量化(如 llama3.2:3b、qwen2.5:7b)
- 核显显存有限,780M/790M 建议 ≤7B,老核显(Vega 8)建议 ≤3B
二、启用 AMD 集显(Vulkan 后端)
1. 切换加速引擎(关键)
- 打开 LM Studio → 点击右上角 ⚙️ Settings
- 进入 Runtime → GGUF Acceleration
- 下拉选择 Vulkan(不要选 CUDA/OpenCL)
- 重启 LM Studio
2. 强制使用 AMD 集显(双显卡笔记本)
- 打开 AMD Software: Adrenalin → 性能 → 图形 → 应用程序设置
- 找到 LM Studio(或手动添加
lmstudio.exe) - 图形配置设为 高性能(AMD 独显 / 核显),禁用 Intel 集显
- 电源选项设为 高性能模式
3. 加载模型并开启 GPU 加速
- 进入 Chat 标签 → 搜索并下载模型(如 llama3.2:3b)
- 下载后点击 Load → 勾选 Show advanced settings
- GPU Offload Layers:拉到最大(如 35–40)
- 勾选 Use GPU acceleration
- 点击 Load 启动
Chap4 NPU
方案 1:LM Studio + AMD 集显(Vulkan,最省心)
- 用 Vulkan 后端 跑 AMD 集显(780M/790M),不占用 NPU,但速度比纯 CPU 快很多。
- 操作:
- 更新最新 Adrenalin 驱动(含 Vulkan)。
- LM Studio → Settings → Runtime → GGUF Acceleration → Vulkan。
- 加载模型,GPU Offload Layers 拉满。
- 效果:780M 跑 3B 模型约 15–30 tokens/s,低功耗、稳定。
方案 2:AMD 官方工具链(NPU 原生,性能最强)
用 AMD 自家软件跑 NPU,再通过 LM Studio 前端交互AMD。
- 安装 Ryzen AI Software(含 NPU 驱动、编译器):
- 安装 AI Bundle(Adrenalin 驱动内一键安装,含 ROCm、Ollama)。
- 用 Ollama + Ryzen AI NPU 跑模型:
bash
运行
# 启用 NPU 加速(需 Ryzen AI Software) set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3 set HSA_OVERRIDE_GFX_VERSION=gfx1103 ollama run llama3.2:3b - LM Studio 连接 Ollama 服务:
- LM Studio → Local Server → Connect to Ollama → 即可在 LM Studio 聊天界面使用。
- 优点:真正用 NPU 推理,功耗极低、速度接近集显。
- 缺点:需安装 AMD 全套 AI 软件,配置略复杂。
方案 3:llama.cpp + AMD NPU(命令行,进阶)
llama.cpp 已在测试 AMD NPU 支持(需编译特定分支)。
bash
运行
# 编译支持 NPU 的 llama.cpp(示例)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_AMD_NPU=1
./main -m llama3.2-3b-q4_k_m.gguf -ngl 99 --npu amd
- 适合:想极致榨干 NPU、能接受命令行的用户。
chap5 NPU+Ollama
目前能真正用上 AMD Ryzen AI NPU(XDNA) 跑本地大模型的方案,按易用性排序如下:
一、Ollama + Ryzen AI Software(最推荐,新手友好)
唯一能一键用 NPU、还能连 LM Studio 界面的方案。
1. 安装环境(必须)
- 安装最新 Adrenalin 驱动(26.1.1+),安装时勾选 AI Bundle(含 ROCm、NPU 驱动、Ollama)。
- 重启电脑,系统自动配置好 NPU 环境。
2. 用 NPU 跑模型
bash
运行
# 直接运行,自动启用 NPU 加速
ollama run llama3.2:3b
# 或指定 NPU 模式(部分机型需手动)
set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3
set HSA_OVERRIDE_GFX_VERSION=gfx1103
ollama run qwen2.5:7b
3. 用 LM Studio 做界面(可选)
- LM Studio → Local Server → Connect to Ollama
- 即可在 LM Studio 聊天界面用 NPU 推理。效果:7840HS/8845HS 跑 3B 模型约 15–25 tokens/s,纯 NPU 低功耗。
二、FastFlowLM(NPU 专用,极简)
专为 AMD NPU 优化的轻量工具,完全跑在 NPU 上,不占 GPU/CPU。
1. 安装
bash
运行
# 下载安装(20秒完成)
winget install FastFlowLM.FastFlowLM
# 或官网下载:https://github.com/FastFlowLM/FastFlowLM
2. 运行
bash
运行
# 拉取并运行 NPU 优化模型
fastflowlm run llama3.2:3b
# 启动 OpenAI 兼容服务,供 LM Studio 连接
fastflowlm serve
优点:体积仅 16MB、功耗极低、支持 256k 上下文。缺点:模型库较少,需用其专用格式。
三、llama.cpp + AMD NPU(命令行,性能最强)
llama.cpp 已支持 AMD NPU(需编译特定分支),适合极客Ryzen AI Software。
1. 编译(Windows)
bash
运行
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_AMD_NPU=ON
cmake --build build --config Release
2. 运行
bash
运行
./build/bin/llama-cli -m llama3.2-3b-q4_k_m.gguf -ngl 99 --npu amd
优点:性能最优、支持所有 GGUF 模型、可精细调参。缺点:需编译、无 GUI。
四、LM Studio 原生(暂不直接支持 NPU)
LM Studio 目前不直接调用 NPU,但可通过连接 Ollama/FastFlowLM 服务间接使用 NPUAMD。
- 直接用 LM Studio:仅能跑 Vulkan(集显),不碰 NPU。
- 间接用 NPU:LM Studio → 连接 Ollama/FastFlowLM 服务。
chap 6 AI Bundle
一、先确认:为什么看不到 AI Bundle?
AI Bundle 不是所有机型、所有驱动都有,满足以下条件才会显示AMD:
- 驱动版本:必须是 Adrenalin 26.1.1 及以上(2026-01-21 及以后)
- 硬件:必须是 Ryzen AI 300/400/Max 系列(如 7840HS/8845HS/AI 9 HX 370)或 RX 7700+ 独显
- 安装方式:必须走 自定义安装(Additional Options),快速安装不显示
- 系统:必须是 Windows 11 64-bit 22H2+
Chap7 AI Bundle 的替代方案
如果你的机型不支持 AI Bundle(如 7840HS 等老 AI 机型),或安装界面确实没有,用下面方法单独装 NPU 驱动 + Ollama,一样能用 NPU 跑模型。
方案 A:单独安装 Ryzen AI NPU 驱动(官方)
- 下载 NPU 驱动包(适配 7840HS/8845HS 等)
- 安装
- 解压 → 以管理员身份打开终端
- 运行:
.\npu_sw_installer.exe - 安装完成 → 重启
- 验证:任务管理器 → 性能 → 看是否有 NPU0
方案 B:安装 Ollama(手动配置 NPU)
- 下载 Ollama:https://ollama.com/download/windows
- 配置环境变量(启用 NPU)
bash
运行
set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3 set HSA_OVERRIDE_GFX_VERSION=gfx1103 - 运行模型(自动用 NPU)
bash
运行
ollama run llama3.2:3b
方案 C:LM Studio 间接用 NPU
- LM Studio 本身不直接调用 NPU
- 但可以连接 Ollama 服务:LM Studio → Local Server → Connect to Ollama
- 即可在 LM Studio 界面用 NPU 推理
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)