别只拿来打游戏，Radeon 显卡跑 Qwen 3.6 的本地部署实录

小助手

33人浏览 · 2026-05-19 16:26:50

小助手 · 2026-05-19 16:26:50 发布

那块 RX 7900 XT 在机箱里吃灰快半年了。自从通关了《赛博朋克 2077》，它唯一的任务就是在我写代码时默默散热。直到最近，看着 NVIDIA 显卡那令人咋舌的价格，我心里突然冒出一个念头：难道 AMD 显卡真的只能打游戏？ 社区里关于 ROCm 的讨论越来越多，有人说它是“开源界的希望”，也有人吐槽它是“配置火葬场”。

带着这种将信将疑的心态，我决定把这块闲置的游戏卡变成我的本地 AI 推理节点。目标很明确：跑通最新的 Qwen 3.6 模型。这不仅仅是一次软件安装，更像是一场与驱动、依赖库和命令行报错的搏斗。如果你也手握一张 Radeon 显卡，却不敢踏入 AI 的大门，那么这篇实录或许能给你一点动手的勇气。

硬件选型：别被显存带宽忽悠了

在正式动工前，我得先泼盆冷水。不是所有 A 卡都能完美运行大模型。

很多人觉得只要显存大就行，其实架构兼容性才是关键。AMD 的 ROCm 框架对 GPU 架构有严格筛选。如果你还在用几年前的老卡（比如 Polaris 架构的 RX 580），大概率会在编译阶段就碰壁。对于想搭建高性价比实验室的朋友，我的建议非常直接：

首选 RDNA 3 架构：如 RX 7900 系列。它们对 ROCm 的支持最完善，算力密度高，是目前的“甜点”选择。
显存即正义：跑 Qwen 3.6 这种参数量不小的模型，16GB 是起步线，20GB 或 24GB 会更从容。显存决定了你能加载多大的上下文窗口，而不仅仅是模型本身。
避坑指南：千万别买那种“魔改版”或者笔记本移动版的核心，桌面版的标准核心在 Linux 下的驱动支持要稳定得多。

我当时盯着手里的 7900 XT，20GB 显存让我底气十足。心想：就算配置过程再痛苦，只要跑起来，这性价比绝对吊打同价位的 N 卡。

驯服 ROCm：Linux 下的“排雷”实录

重头戏来了。Windows 下的 DirectML 虽然能用，但要想发挥 A 卡的全部实力，Linux 是唯一真神。我随手掏出一台旧主机，装上了 Ubuntu 22.04 LTS。

安装过程并非一帆风顺。按照官方文档敲下命令后，终端返回了一堆红色的报错信息。

$ rocminfo
command not found

那一刻，熟悉的焦虑感涌上心头。难道又要放弃？冷静下来检查日志，发现是内核版本过高导致 DKMS 模块编译失败。这就是典型的“环境冲突”。解决这个问题的过程，其实就是极客乐趣所在：

降级内核或更新驱动：我选择锁定一个稳定的内核版本（6.5.x），并手动添加 AMD 的官方源。
用户组权限陷阱：即使安装成功，普通用户也无法调用 GPU。必须执行 sudo usermod -a -G render,video $LOGNAME，然后重启。这一步极其隐蔽，很多人卡在这里以为驱动没装好。
验证时刻：再次输入 rocminfo，当屏幕上刷出密密麻麻的 GPU 信息，特别是看到 Name: gfx1100 时，我知道，路通了。

没有现成的“一键安装包”，每一个报错的解决都是在为后续的稳定运行打地基。这种“手搓”出来的环境，用起来反而更踏实。

Qwen 3.6 首跑：当文本在终端流淌

环境就绪，接下来请主角登场。我没有选择复杂的源码编译，而是利用 llama.cpp 对 ROCm 的良好支持，直接加载量化后的 GGUF 格式模型。

# 启动命令示例
./main -m qwen3.6-7b-q4_k_m.gguf -p "你好，请介绍一下你自己" -ngl 99 -t 8 --rocm

参数 -ngl 99 是关键，它告诉程序把所有层都卸载到 GPU 上运行。按下回车的那一刻，风扇声骤然变大，像是野兽苏醒。

几秒钟后，字符开始跳动。

“你好！我是 Qwen 3.6，一个由阿里巴巴云研发的大型语言模型……"

没有卡顿，没有显存溢出（OOM）。我试着抛出一个复杂的逻辑题，又让它生成一段 Python 脚本。Token 生成速度稳定在 45 tokens/s 左右。这个速度虽然比不上顶级 H100，但对于本地个人使用来说，已经完全达到了“流畅对话”的标准。

更重要的是，整个过程中，我的显示器依然连接在这张卡上，后台还挂着两个 Chrome 标签页。Radeon 的大显存优势在此刻体现得淋漓尽致：它既没有因为显存不足而崩溃，也没有影响我正常的桌面操作。

一机多用：游戏与生产力的平衡术

这次实验最大的收获，不是跑通了一个模型，而是打破了"A 卡只能 gaming"的刻板印象。

以前，我们总觉得需要专门买一张计算卡来做 AI，或者为了 AI 牺牲游戏体验。但现在，通过合理的系统隔离（比如双系统或 Docker 容器），同一张 RX 7900 XT 白天可以是你的 4K 游戏利器，晚上变身高效的代码助手和视频超分工具。

我尝试了用这张卡进行简单的视频帧插值测试，渲染速度出乎意料地快。想象一下，你不需要额外投入几千块购买新硬件，只需挖掘现有设备的潜力，就能拥有一个私有的、数据完全本地化的 AI 实验室。

这种“变废为宝”的过程，本身就充满了极客式的浪漫。当你看到那些曾经被认为“不兼容”的硬件，在你的调试下吐出智能的回答时，那种成就感远比游戏里拿到一个五杀要持久得多。

如果你也在犹豫要不要入手 A 卡来玩 AI，我的建议是：别怕麻烦。那些看似复杂的命令行和驱动冲突，其实是通往自由算力世界的门票。动手试试吧，你的显卡可能比你想象的更强大。

立即加入 AI 开发者计划，免费领取 100 小时算力

添加微信小助手 csdn-01 还可额外领取「Openclaw 实战秘籍」

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【Linux】进程控制（3）进程程序替换

代码语言：javascriptAI代码解释这是一系列/一套函数，这些函数的作用都是进行程序替换的，它们的前缀都是exec。如果程序替换成功，那么会直接执行替换后的程序的代码，不会有返回值，如果执行失败了会返回-1。所以exec系列函数只有出错的返回值，没有成功的返回值。它们的命名都很有特点，接下来会分别介绍这些exec系列函数，然后进行总结。v和l只能有一个（彼此互斥），它们代表了参数的传入方式。

AtomGit开源社区

双连杆机械臂 RBFNN+NTSM + 自适应强化学习控制（带饱和补偿）（Matlab代码实现）

针对双连杆机械臂在模型不确定性、外部扰动以及执行器饱和约束下的高精度轨迹跟踪控制难题，本文提出一种融合径向基函数神经网络、非奇异终端滑模控制与强化学习的自适应鲁棒控制方案。该方法以非奇异终端滑模为核心控制框架，保证系统状态在有限时间内收敛并避免传统滑模的奇异性问题；采用评价 - 动作双网络强化学习结构，利用径向基函数神经网络实现对系统未知动态与不确定项的在线逼近，同时完成控制策略的自适应优化；设计

AtomGit开源社区

不平衡学习的自适应合成采样方法ADASYN（Matlab代码实现）

在机器学习实际应用中，类别不平衡问题广泛存在，即数据集中某一类别的样本数量远多于另一类别（多数类与少数类），这种不平衡分布会导致模型训练偏向多数类，大幅降低少数类样本的识别精度，而少数类样本往往承载着关键信息（如欺诈检测中的欺诈样本、医疗诊断中的患病样本）。自适应合成采样方法（ADASYN）作为解决类别不平衡问题的经典过采样技术，通过自适应调整少数类样本的合成策略，重点关注难以学习的少数类样本，有