那块 RX 7900 XT 在机箱里吃灰快半年了。自从通关了《赛博朋克 2077》,它唯一的任务就是在我写代码时默默散热。直到最近,看着 NVIDIA 显卡那令人咋舌的价格,我心里突然冒出一个念头:难道 AMD 显卡真的只能打游戏? 社区里关于 ROCm 的讨论越来越多,有人说它是“开源界的希望”,也有人吐槽它是“配置火葬场”。

带着这种将信将疑的心态,我决定把这块闲置的游戏卡变成我的本地 AI 推理节点。目标很明确:跑通最新的 Qwen 3.6 模型。这不仅仅是一次软件安装,更像是一场与驱动、依赖库和命令行报错的搏斗。如果你也手握一张 Radeon 显卡,却不敢踏入 AI 的大门,那么这篇实录或许能给你一点动手的勇气。

硬件选型:别被显存带宽忽悠了

在正式动工前,我得先泼盆冷水。不是所有 A 卡都能完美运行大模型。

很多人觉得只要显存大就行,其实架构兼容性才是关键。AMD 的 ROCm 框架对 GPU 架构有严格筛选。如果你还在用几年前的老卡(比如 Polaris 架构的 RX 580),大概率会在编译阶段就碰壁。对于想搭建高性价比实验室的朋友,我的建议非常直接:

  • 首选 RDNA 3 架构:如 RX 7900 系列。它们对 ROCm 的支持最完善,算力密度高,是目前的“甜点”选择。
  • 显存即正义:跑 Qwen 3.6 这种参数量不小的模型,16GB 是起步线,20GB 或 24GB 会更从容。显存决定了你能加载多大的上下文窗口,而不仅仅是模型本身。
  • 避坑指南:千万别买那种“魔改版”或者笔记本移动版的核心,桌面版的标准核心在 Linux 下的驱动支持要稳定得多。

我当时盯着手里的 7900 XT,20GB 显存让我底气十足。心想:就算配置过程再痛苦,只要跑起来,这性价比绝对吊打同价位的 N 卡。

驯服 ROCm:Linux 下的“排雷”实录

重头戏来了。Windows 下的 DirectML 虽然能用,但要想发挥 A 卡的全部实力,Linux 是唯一真神。我随手掏出一台旧主机,装上了 Ubuntu 22.04 LTS。

安装过程并非一帆风顺。按照官方文档敲下命令后,终端返回了一堆红色的报错信息。

$ rocminfo
command not found

那一刻,熟悉的焦虑感涌上心头。难道又要放弃?冷静下来检查日志,发现是内核版本过高导致 DKMS 模块编译失败。这就是典型的“环境冲突”。解决这个问题的过程,其实就是极客乐趣所在:

  1. 降级内核或更新驱动:我选择锁定一个稳定的内核版本(6.5.x),并手动添加 AMD 的官方源。
  2. 用户组权限陷阱:即使安装成功,普通用户也无法调用 GPU。必须执行 sudo usermod -a -G render,video $LOGNAME,然后重启。这一步极其隐蔽,很多人卡在这里以为驱动没装好。
  3. 验证时刻:再次输入 rocminfo,当屏幕上刷出密密麻麻的 GPU 信息,特别是看到 Name: gfx1100 时,我知道,路通了。
    在这里插入图片描述

没有现成的“一键安装包”,每一个报错的解决都是在为后续的稳定运行打地基。这种“手搓”出来的环境,用起来反而更踏实。

Qwen 3.6 首跑:当文本在终端流淌

环境就绪,接下来请主角登场。我没有选择复杂的源码编译,而是利用 llama.cpp 对 ROCm 的良好支持,直接加载量化后的 GGUF 格式模型。

# 启动命令示例
./main -m qwen3.6-7b-q4_k_m.gguf -p "你好,请介绍一下你自己" -ngl 99 -t 8 --rocm

参数 -ngl 99 是关键,它告诉程序把所有层都卸载到 GPU 上运行。按下回车的那一刻,风扇声骤然变大,像是野兽苏醒。

几秒钟后,字符开始跳动。

“你好!我是 Qwen 3.6,一个由阿里巴巴云研发的大型语言模型……"

没有卡顿,没有显存溢出(OOM)。我试着抛出一个复杂的逻辑题,又让它生成一段 Python 脚本。Token 生成速度稳定在 45 tokens/s 左右。这个速度虽然比不上顶级 H100,但对于本地个人使用来说,已经完全达到了“流畅对话”的标准。

更重要的是,整个过程中,我的显示器依然连接在这张卡上,后台还挂着两个 Chrome 标签页。Radeon 的大显存优势在此刻体现得淋漓尽致:它既没有因为显存不足而崩溃,也没有影响我正常的桌面操作。

一机多用:游戏与生产力的平衡术

这次实验最大的收获,不是跑通了一个模型,而是打破了"A 卡只能 gaming"的刻板印象。

以前,我们总觉得需要专门买一张计算卡来做 AI,或者为了 AI 牺牲游戏体验。但现在,通过合理的系统隔离(比如双系统或 Docker 容器),同一张 RX 7900 XT 白天可以是你的 4K 游戏利器,晚上变身高效的代码助手和视频超分工具。

我尝试了用这张卡进行简单的视频帧插值测试,渲染速度出乎意料地快。想象一下,你不需要额外投入几千块购买新硬件,只需挖掘现有设备的潜力,就能拥有一个私有的、数据完全本地化的 AI 实验室。

这种“变废为宝”的过程,本身就充满了极客式的浪漫。当你看到那些曾经被认为“不兼容”的硬件,在你的调试下吐出智能的回答时,那种成就感远比游戏里拿到一个五杀要持久得多。

如果你也在犹豫要不要入手 A 卡来玩 AI,我的建议是:别怕麻烦。那些看似复杂的命令行和驱动冲突,其实是通往自由算力世界的门票。动手试试吧,你的显卡可能比你想象的更强大。


立即加入 AI 开发者计划,免费领取 100 小时算力

添加微信小助手 csdn-01 还可额外领取「Openclaw 实战秘籍」

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐