大模型集成显卡支持及NPU支持

weixin_39757802

408人浏览 · 2026-03-24 10:49:37

weixin_39757802 · 2026-03-24 10:49:37 发布

chap1 独显

在 Windows AMD 笔记本上让 Ollama 用上 AMD 显卡，核心是：更新 AMD 驱动 + 安装 ROCm 6.1+ + 用最新版 Ollama + 强制用独显。

一、先确认你的显卡是否被支持

Ollama Windows 只支持以下 AMD 独显（集显不支持）：

RX 7000 系列：7900 XTX/XT/GRE、7800 XT、7700 XT、7600 XT/7600
RX 6000 系列：6950 XT、6900 XTX/XT、6800 XT/6800
Radeon PRO 系列：W7900/W7800/W7700/W7600、W6900X 等

二、安装 / 更新必备软件

1. 更新 AMD 显卡驱动

打开 AMD Software: Adrenalin Edition → 检查更新
或去 AMD 官网下载最新版驱动：https://www.amd.com/en/support
必须是 2025 年后、支持 ROCm 6.1+ 的驱动

2. 安装 ROCm 6.1+（关键）

Ollama Windows 依赖 ROCm 6.1 或更高：

下载：https://rocm.docs.amd.com/projects/install-on-windows/en/latest/install/install.html
安装时勾选 HIP SDK 和 ROCm Libraries
安装后重启电脑

3. 安装 / 更新 Ollama（v0.17.0+）

官网下载最新版：https://ollama.com/download/windows
安装后在 PowerShell 验证版本：
powershell
```
ollama version
```
确保 ≥ 0.17.0

chap2 集显

一、官方态度与计划（2026.3）

官方 Windows 版：只支持 AMD 独显（RX 6000/7000、Radeon PRO），不支持集显。
路线图：Ollama 官方未公布 Windows 下 AMD 集显支持时间表，短期内（2026 上半年）可能性低。
底层原因：Windows 上 ROCm 对 APU / 集显支持不完善，Ollama 优先适配独显生态。

二、Windows 直接用 AMD 集显跑 Ollama（魔改方案）

方案 1：ollama-for-amd 魔改版（推荐，780M/790M 可用）

社区项目 ollama-for-amd 已适配 AMD 集显（如 780M、790M，gfx1103）。

卸载官方 Ollama。
下载魔改版：https://github.com/likelovewant/ollama-for-amd/releases
安装 / 解压后，替换对应集显的 ROCm 库（如 780M 用 gfx1103 版）。
重启服务，即可用集显跑模型。

优点：原生 Windows、无需虚拟机、速度比 CPU 快很多。
缺点：非官方、需手动替换文件、稳定性一般。

方案 2：llama.cpp/ LM Studio（纯 CPU + 集显混合加速）

llama.cpp：原生支持 AMD GPU（包括集显），用 OpenCL 或 HIP 加速，适合轻量模型（1.5B–3B）。
LM Studio：带 GUI，自动适配 AMD 集显，一键下载运行，适合新手。

命令示例（llama.cpp）：

bash

运行

./main -m llama3.2-3b-q4_k_m.gguf -ngl 20 --gpu amd

三、WSL2 + Linux（最稳定、性能最好）

在 Windows 内置 Linux 子系统中，ROCm 对 AMD 集显支持更好，可稳定跑 Ollama。

启用 WSL2：
powershell
```
wsl --install -d Ubuntu-22.04
```

在 Ubuntu 中安装 Ollama：

bash

运行

curl -fsSL https://ollama.com/install.sh | sh

安装 ROCm 并启用集显：

bash

运行

sudo apt install rocm-hip-sdk
export HSA_OVERRIDE_GFX_VERSION=gfx1103  # 780M 填 gfx1103

运行模型：
bash

运行
```
ollama run llama3.2:3b
```

优点：官方支持、稳定、性能接近原生 Linux。
缺点：占用磁盘（20GB+）、需熟悉 Linux 命令。

四、纯 CPU 方案（最稳妥，无 GPU 依赖）

直接用官方 Ollama，跑轻量量化模型（1.5B–3B，Q4 及以下）。

示例：

bash

运行

ollama run qwen:1.8b
ollama run phi3:mini

适合：仅做简单问答、摘要，对速度要求不高。

chap3 LM Studio

LM Studio 对 AMD 集显（核显）支持很友好，Windows 下用 Vulkan 后端即可稳定启用，适合 780M/790M、Vega 等核显，比纯 CPU 快很多。

一、前期准备（必做）

更新 AMD 驱动
- 安装最新 Adrenalin 版驱动（2025 年后版本）
- 打开 AMD Software → 检查更新并安装
安装 LM Studio
- 官网下载：https://lmstudio.ai/download
- 安装后打开，首次启动会自动初始化环境
模型选择
- 优先选 GGUF 格式、Q4_K_M 量化（如 llama3.2:3b、qwen2.5:7b）
- 核显显存有限，780M/790M 建议 ≤7B，老核显（Vega 8）建议 ≤3B

二、启用 AMD 集显（Vulkan 后端）

1. 切换加速引擎（关键）

打开 LM Studio → 点击右上角 ⚙️ Settings
进入 Runtime → GGUF Acceleration
下拉选择 Vulkan（不要选 CUDA/OpenCL）
重启 LM Studio

2. 强制使用 AMD 集显（双显卡笔记本）

打开 AMD Software: Adrenalin → 性能 → 图形 → 应用程序设置
找到 LM Studio（或手动添加 lmstudio.exe）
图形配置设为 高性能（AMD 独显 / 核显），禁用 Intel 集显
电源选项设为 高性能模式

3. 加载模型并开启 GPU 加速

进入 Chat 标签 → 搜索并下载模型（如 llama3.2:3b）
下载后点击 Load → 勾选 Show advanced settings
GPU Offload Layers：拉到最大（如 35–40）
勾选 Use GPU acceleration
点击 Load 启动

Chap4 NPU

方案 1：LM Studio + AMD 集显（Vulkan，最省心）

用 Vulkan 后端 跑 AMD 集显（780M/790M），不占用 NPU，但速度比纯 CPU 快很多。
操作：
1. 更新最新 Adrenalin 驱动（含 Vulkan）。
2. LM Studio → Settings → Runtime → GGUF Acceleration → Vulkan。
3. 加载模型，GPU Offload Layers 拉满。
效果：780M 跑 3B 模型约 15–30 tokens/s，低功耗、稳定。

方案 2：AMD 官方工具链（NPU 原生，性能最强）

用 AMD 自家软件跑 NPU，再通过 LM Studio 前端交互AMD。

安装 Ryzen AI Software（含 NPU 驱动、编译器）：
- 官网：https://www.amd.com/zh-cn/developer/resources/ryzen-ai-software.html
安装 AI Bundle（Adrenalin 驱动内一键安装，含 ROCm、Ollama）。

用 Ollama + Ryzen AI NPU 跑模型：

bash

运行

# 启用 NPU 加速（需 Ryzen AI Software）
set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3
set HSA_OVERRIDE_GFX_VERSION=gfx1103
ollama run llama3.2:3b

LM Studio 连接 Ollama 服务：
- LM Studio → Local Server → Connect to Ollama → 即可在 LM Studio 聊天界面使用。

优点：真正用 NPU 推理，功耗极低、速度接近集显。
缺点：需安装 AMD 全套 AI 软件，配置略复杂。

方案 3：llama.cpp + AMD NPU（命令行，进阶）

llama.cpp 已在测试 AMD NPU 支持（需编译特定分支）。

bash

运行

# 编译支持 NPU 的 llama.cpp（示例）
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_AMD_NPU=1
./main -m llama3.2-3b-q4_k_m.gguf -ngl 99 --npu amd

适合：想极致榨干 NPU、能接受命令行的用户。

chap5 NPU+Ollama

目前能真正用上 AMD Ryzen AI NPU（XDNA） 跑本地大模型的方案，按易用性排序如下：

一、Ollama + Ryzen AI Software（最推荐，新手友好）

唯一能一键用 NPU、还能连 LM Studio 界面的方案。

1. 安装环境（必须）

安装最新 Adrenalin 驱动（26.1.1+），安装时勾选 AI Bundle（含 ROCm、NPU 驱动、Ollama）。
重启电脑，系统自动配置好 NPU 环境。

2. 用 NPU 跑模型

bash

运行

# 直接运行，自动启用 NPU 加速
ollama run llama3.2:3b
# 或指定 NPU 模式（部分机型需手动）
set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3
set HSA_OVERRIDE_GFX_VERSION=gfx1103
ollama run qwen2.5:7b

3. 用 LM Studio 做界面（可选）

LM Studio → Local Server → Connect to Ollama
即可在 LM Studio 聊天界面用 NPU 推理。效果：7840HS/8845HS 跑 3B 模型约 15–25 tokens/s，纯 NPU 低功耗。

二、FastFlowLM（NPU 专用，极简）

专为 AMD NPU 优化的轻量工具，完全跑在 NPU 上，不占 GPU/CPU。

1. 安装

bash

运行

# 下载安装（20秒完成）
winget install FastFlowLM.FastFlowLM
# 或官网下载：https://github.com/FastFlowLM/FastFlowLM

2. 运行

bash

运行

# 拉取并运行 NPU 优化模型
fastflowlm run llama3.2:3b
# 启动 OpenAI 兼容服务，供 LM Studio 连接
fastflowlm serve

优点：体积仅 16MB、功耗极低、支持 256k 上下文。缺点：模型库较少，需用其专用格式。

三、llama.cpp + AMD NPU（命令行，性能最强）

llama.cpp 已支持 AMD NPU（需编译特定分支），适合极客Ryzen AI Software。

1. 编译（Windows）

bash

运行

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_AMD_NPU=ON
cmake --build build --config Release

2. 运行

bash

运行

./build/bin/llama-cli -m llama3.2-3b-q4_k_m.gguf -ngl 99 --npu amd

优点：性能最优、支持所有 GGUF 模型、可精细调参。缺点：需编译、无 GUI。

四、LM Studio 原生（暂不直接支持 NPU）

LM Studio 目前不直接调用 NPU，但可通过连接 Ollama/FastFlowLM 服务间接使用 NPUAMD。

直接用 LM Studio：仅能跑 Vulkan（集显），不碰 NPU。
间接用 NPU：LM Studio → 连接 Ollama/FastFlowLM 服务。

chap 6 AI Bundle

一、先确认：为什么看不到 AI Bundle？

AI Bundle 不是所有机型、所有驱动都有，满足以下条件才会显示AMD：

驱动版本：必须是 Adrenalin 26.1.1 及以上（2026-01-21 及以后）
硬件：必须是 Ryzen AI 300/400/Max 系列（如 7840HS/8845HS/AI 9 HX 370）或 RX 7700+ 独显
安装方式：必须走 自定义安装（Additional Options），快速安装不显示
系统：必须是 Windows 11 64-bit 22H2+

Chap7 AI Bundle 的替代方案

如果你的机型不支持 AI Bundle（如 7840HS 等老 AI 机型），或安装界面确实没有，用下面方法单独装 NPU 驱动 + Ollama，一样能用 NPU 跑模型。

方案 A：单独安装 Ryzen AI NPU 驱动（官方）

下载 NPU 驱动包（适配 7840HS/8845HS 等）
- 官方下载：https://ryzenai.docs.amd.com/en/latest/inst.html
- 直接下载：https://ryzenai.docs.amd.com/en/latest/_downloads/928888888888/NPU_RAI1.2_20240729.zip
安装
- 解压 → 以管理员身份打开终端
- 运行：.\npu_sw_installer.exe
- 安装完成 → 重启
验证：任务管理器 → 性能 → 看是否有 NPU0

方案 B：安装 Ollama（手动配置 NPU）

下载 Ollama：https://ollama.com/download/windows

配置环境变量（启用 NPU）

bash

运行

set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3
set HSA_OVERRIDE_GFX_VERSION=gfx1103

运行模型（自动用 NPU）
bash

运行
```
ollama run llama3.2:3b
```

方案 C：LM Studio 间接用 NPU

LM Studio 本身不直接调用 NPU
但可以连接 Ollama 服务：LM Studio → Local Server → Connect to Ollama
即可在 LM Studio 界面用 NPU 推理

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

HoRain云--Vue.js循环渲染完全指南：v-for实战技巧

本文是一份Vue.js中v-for指令的完整使用指南。主要内容包括：v-for基础用法（遍历数组/对象）、关键属性key的作用、在template上使用v-for、循环嵌套、遍历数字范围等核心功能。特别强调了v-for与v-if的正确结合方式，动态操作数组的方法，以及性能优化技巧（如使用计算属性、虚拟滚动等）。最后通过一个实用的待办事项列表示例，展示了v-for在实际开发中的应用。文章指出v-fo