chap1 独显

在 Windows AMD 笔记本上让 Ollama 用上 AMD 显卡,核心是:更新 AMD 驱动 + 安装 ROCm 6.1+ + 用最新版 Ollama + 强制用独显

一、先确认你的显卡是否被支持

Ollama Windows 只支持以下 AMD 独显(集显不支持):

  • RX 7000 系列:7900 XTX/XT/GRE、7800 XT、7700 XT、7600 XT/7600
  • RX 6000 系列:6950 XT、6900 XTX/XT、6800 XT/6800
  • Radeon PRO 系列:W7900/W7800/W7700/W7600、W6900X 等

二、安装 / 更新必备软件

1. 更新 AMD 显卡驱动
  • 打开 AMD Software: Adrenalin Edition → 检查更新
  • 或去 AMD 官网下载最新版驱动:https://www.amd.com/en/support
  • 必须是 2025 年后、支持 ROCm 6.1+ 的驱动
2. 安装 ROCm 6.1+(关键)

Ollama Windows 依赖 ROCm 6.1 或更高

3. 安装 / 更新 Ollama(v0.17.0+)

chap2 集显

一、官方态度与计划(2026.3)

  • 官方 Windows 版:只支持 AMD 独显(RX 6000/7000、Radeon PRO),不支持集显
  • 路线图:Ollama 官方未公布 Windows 下 AMD 集显支持时间表,短期内(2026 上半年)可能性低。
  • 底层原因:Windows 上 ROCm 对 APU / 集显支持不完善,Ollama 优先适配独显生态。

二、Windows 直接用 AMD 集显跑 Ollama(魔改方案)

方案 1:ollama-for-amd 魔改版(推荐,780M/790M 可用)

社区项目 ollama-for-amd 已适配 AMD 集显(如 780M、790M,gfx1103)。

  1. 卸载官方 Ollama。
  2. 下载魔改版:https://github.com/likelovewant/ollama-for-amd/releases
  3. 安装 / 解压后,替换对应集显的 ROCm 库(如 780M 用 gfx1103 版)。
  4. 重启服务,即可用集显跑模型。
  • 优点:原生 Windows、无需虚拟机、速度比 CPU 快很多。
  • 缺点:非官方、需手动替换文件、稳定性一般。
方案 2:llama.cpp/ LM Studio(纯 CPU + 集显 混合加速)
  • llama.cpp:原生支持 AMD GPU(包括集显),用 OpenCL 或 HIP 加速,适合轻量模型(1.5B–3B)。
  • LM Studio:带 GUI,自动适配 AMD 集显,一键下载运行,适合新手。
  • 命令示例(llama.cpp):

    bash

    运行

    ./main -m llama3.2-3b-q4_k_m.gguf -ngl 20 --gpu amd
    

三、WSL2 + Linux(最稳定、性能最好)

在 Windows 内置 Linux 子系统中,ROCm 对 AMD 集显支持更好,可稳定跑 Ollama。

  1. 启用 WSL2:

    powershell

    wsl --install -d Ubuntu-22.04
    
  2. 在 Ubuntu 中安装 Ollama:

    bash

    运行

    curl -fsSL https://ollama.com/install.sh | sh
    
  3. 安装 ROCm 并启用集显:

    bash

    运行

    sudo apt install rocm-hip-sdk
    export HSA_OVERRIDE_GFX_VERSION=gfx1103  # 780M 填 gfx1103
    
  4. 运行模型:

    bash

    运行

    ollama run llama3.2:3b
    
  • 优点:官方支持、稳定、性能接近原生 Linux。
  • 缺点:占用磁盘(20GB+)、需熟悉 Linux 命令。

四、纯 CPU 方案(最稳妥,无 GPU 依赖)

  • 直接用官方 Ollama,跑轻量量化模型(1.5B–3B,Q4 及以下)。
  • 示例:

    bash

    运行

    ollama run qwen:1.8b
    ollama run phi3:mini
    
  • 适合:仅做简单问答、摘要,对速度要求不高。

chap3 LM Studio

LM Studio 对 AMD 集显(核显)支持很友好,Windows 下用 Vulkan 后端即可稳定启用,适合 780M/790M、Vega 等核显,比纯 CPU 快很多。

一、前期准备(必做)

  1. 更新 AMD 驱动
    • 安装最新 Adrenalin 版驱动(2025 年后版本)
    • 打开 AMD Software → 检查更新并安装
  2. 安装 LM Studio
  3. 模型选择
    • 优先选 GGUF 格式、Q4_K_M 量化(如 llama3.2:3b、qwen2.5:7b)
    • 核显显存有限,780M/790M 建议 ≤7B,老核显(Vega 8)建议 ≤3B

二、启用 AMD 集显(Vulkan 后端)

1. 切换加速引擎(关键)
  • 打开 LM Studio → 点击右上角 ⚙️ Settings
  • 进入 RuntimeGGUF Acceleration
  • 下拉选择 Vulkan(不要选 CUDA/OpenCL)
  • 重启 LM Studio
2. 强制使用 AMD 集显(双显卡笔记本)
  • 打开 AMD Software: Adrenalin性能 → 图形 → 应用程序设置
  • 找到 LM Studio(或手动添加 lmstudio.exe
  • 图形配置设为 高性能(AMD 独显 / 核显),禁用 Intel 集显
  • 电源选项设为 高性能模式
3. 加载模型并开启 GPU 加速
  • 进入 Chat 标签 → 搜索并下载模型(如 llama3.2:3b)
  • 下载后点击 Load → 勾选 Show advanced settings
  • GPU Offload Layers:拉到最大(如 35–40)
  • 勾选 Use GPU acceleration
  • 点击 Load 启动

Chap4 NPU

方案 1:LM Studio + AMD 集显(Vulkan,最省心)
  • Vulkan 后端 跑 AMD 集显(780M/790M),不占用 NPU,但速度比纯 CPU 快很多。
  • 操作:
    1. 更新最新 Adrenalin 驱动(含 Vulkan)。
    2. LM Studio → Settings → Runtime → GGUF Acceleration → Vulkan
    3. 加载模型,GPU Offload Layers 拉满
  • 效果:780M 跑 3B 模型约 15–30 tokens/s,低功耗、稳定。
方案 2:AMD 官方工具链(NPU 原生,性能最强)

用 AMD 自家软件跑 NPU,再通过 LM Studio 前端交互AMD。

  1. 安装 Ryzen AI Software(含 NPU 驱动、编译器):
  2. 安装 AI Bundle(Adrenalin 驱动内一键安装,含 ROCm、Ollama)。
  3. Ollama + Ryzen AI NPU 跑模型:

    bash

    运行

    # 启用 NPU 加速(需 Ryzen AI Software)
    set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3
    set HSA_OVERRIDE_GFX_VERSION=gfx1103
    ollama run llama3.2:3b
    
  4. LM Studio 连接 Ollama 服务:
    • LM Studio → Local Server → Connect to Ollama → 即可在 LM Studio 聊天界面使用。
  • 优点:真正用 NPU 推理,功耗极低、速度接近集显。
  • 缺点:需安装 AMD 全套 AI 软件,配置略复杂。
方案 3:llama.cpp + AMD NPU(命令行,进阶)

llama.cpp 已在测试 AMD NPU 支持(需编译特定分支)。

bash

运行

# 编译支持 NPU 的 llama.cpp(示例)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_AMD_NPU=1
./main -m llama3.2-3b-q4_k_m.gguf -ngl 99 --npu amd
  • 适合:想极致榨干 NPU、能接受命令行的用户。

chap5 NPU+Ollama

目前能真正用上 AMD Ryzen AI NPU(XDNA) 跑本地大模型的方案,按易用性排序如下:

一、Ollama + Ryzen AI Software(最推荐,新手友好)

唯一能一键用 NPU、还能连 LM Studio 界面的方案

1. 安装环境(必须)
  • 安装最新 Adrenalin 驱动(26.1.1+),安装时勾选 AI Bundle(含 ROCm、NPU 驱动、Ollama)。
  • 重启电脑,系统自动配置好 NPU 环境。
2. 用 NPU 跑模型

bash

运行

# 直接运行,自动启用 NPU 加速
ollama run llama3.2:3b
# 或指定 NPU 模式(部分机型需手动)
set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3
set HSA_OVERRIDE_GFX_VERSION=gfx1103
ollama run qwen2.5:7b
3. 用 LM Studio 做界面(可选)
  • LM Studio → Local Server → Connect to Ollama
  • 即可在 LM Studio 聊天界面用 NPU 推理效果:7840HS/8845HS 跑 3B 模型约 15–25 tokens/s纯 NPU 低功耗

二、FastFlowLM(NPU 专用,极简)

专为 AMD NPU 优化的轻量工具,完全跑在 NPU 上,不占 GPU/CPU

1. 安装

bash

运行

# 下载安装(20秒完成)
winget install FastFlowLM.FastFlowLM
# 或官网下载:https://github.com/FastFlowLM/FastFlowLM
2. 运行

bash

运行

# 拉取并运行 NPU 优化模型
fastflowlm run llama3.2:3b
# 启动 OpenAI 兼容服务,供 LM Studio 连接
fastflowlm serve

优点:体积仅 16MB、功耗极低、支持 256k 上下文。缺点:模型库较少,需用其专用格式。


三、llama.cpp + AMD NPU(命令行,性能最强)

llama.cpp 已支持 AMD NPU(需编译特定分支),适合极客Ryzen AI Software。

1. 编译(Windows)

bash

运行

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_AMD_NPU=ON
cmake --build build --config Release
2. 运行

bash

运行

./build/bin/llama-cli -m llama3.2-3b-q4_k_m.gguf -ngl 99 --npu amd

优点性能最优、支持所有 GGUF 模型、可精细调参。缺点:需编译、无 GUI。


四、LM Studio 原生(暂不直接支持 NPU)

LM Studio 目前不直接调用 NPU,但可通过连接 Ollama/FastFlowLM 服务间接使用 NPUAMD。

  • 直接用 LM Studio:仅能跑 Vulkan(集显)不碰 NPU
  • 间接用 NPU:LM Studio → 连接 Ollama/FastFlowLM 服务。

chap 6 AI Bundle

一、先确认:为什么看不到 AI Bundle?

AI Bundle 不是所有机型、所有驱动都有,满足以下条件才会显示AMD:

  • 驱动版本:必须是 Adrenalin 26.1.1 及以上(2026-01-21 及以后)
  • 硬件:必须是 Ryzen AI 300/400/Max 系列(如 7840HS/8845HS/AI 9 HX 370)或 RX 7700+ 独显
  • 安装方式:必须走 自定义安装(Additional Options)快速安装不显示
  • 系统:必须是 Windows 11 64-bit 22H2+

Chap7 AI Bundle 的替代方案

如果你的机型不支持 AI Bundle(如 7840HS 等老 AI 机型),或安装界面确实没有,用下面方法单独装 NPU 驱动 + Ollama,一样能用 NPU 跑模型。

方案 A:单独安装 Ryzen AI NPU 驱动(官方)
  1. 下载 NPU 驱动包(适配 7840HS/8845HS 等)
  2. 安装
    • 解压 → 以管理员身份打开终端
    • 运行:.\npu_sw_installer.exe
    • 安装完成 → 重启
  3. 验证:任务管理器 → 性能 → 看是否有 NPU0
方案 B:安装 Ollama(手动配置 NPU)
  1. 下载 Ollama:https://ollama.com/download/windows
  2. 配置环境变量(启用 NPU)

    bash

    运行

    set ROCM_PATH=C:\Program Files\AMD\ROCm\6.3
    set HSA_OVERRIDE_GFX_VERSION=gfx1103
    
  3. 运行模型(自动用 NPU)

    bash

    运行

    ollama run llama3.2:3b
    
方案 C:LM Studio 间接用 NPU
  • LM Studio 本身不直接调用 NPU
  • 但可以连接 Ollama 服务:LM Studio → Local Server → Connect to Ollama
  • 即可在 LM Studio 界面用 NPU 推理
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐