Day1-2 学习笔记：在 AMD 云环境上部署 Gemma 4 大模型

星影漾寒沙

60人浏览 · 2026-06-12 23:29:26

星影漾寒沙 · 2026-06-12 23:29:26 发布

一、今天做了什么？

用一句话概括：在 AMD 的云端 GPU 上，把 Google 开源的 Gemma 4 大模型（40亿参数）跑起来，并和它完成了一次真实对话。

整个流程下来大约 15 分钟，零门槛——不用买显卡，不用配环境，浏览器打开就能玩。

二、知识点精讲

在操作之前，我花时间把涉及的核心概念都搞懂了。以下是我自己的理解。

🧠 知识点 1：大模型到底在做什么？

很多人以为大模型是在"查数据库"或者"理解语义后执行指令"，其实核心只有一件事：

预测下一个词，概率最高的那个。

举个例子：

"中国的首都是____"
→ 北京：94%  伦敦：3%  巴黎：2%  ...
→ 模型选概率最高的：北京 ✅

模型之所以显得"聪明"，是因为要把各种问题的下一个词猜准，它必须在训练时暗暗掌握地理、数学、编程、人类情感……海量知识。

那"幻觉"（胡说八道）是怎么来的？

当模型遇到训练数据里没有的问题时，它不会说"我不知道"——它只会做它唯一会的事：续写下一个听起来最合理的词。于是就编出了一个听起来像真的、但实际是假的答案。

幻觉 = 模型在没有正确答案时，仍然选了「概率最高但实际错误」的词。

🧠 知识点 2：Gemma 4 是什么？

属性	内容
出品方	Google DeepMind（2026年发布）
开源/闭源	开源 ✅ 可免费下载、修改、商用
版本	E4B（即 4 Billion，40亿参数）
模型大小	~15 GB
硬件需求	单张高性能 GPU 即可运行

开源 vs 闭源的本质区别：

闭源（如 ChatGPT）：
你 → 发请求 → OpenAI黑盒服务器 → 返回答案
你永远看不到里面，改不了，用不了自己的数据训练

开源（如 Gemma 4）：
你 → 下载15G模型文件 → 装到自己机器上跑
可以看、可以改、可以用自己数据微调，免费商用

我们今天能把整个模型下载到云服务器上自己跑，正是因为它开源。

🧠 知识点 3：参数 / 权重 / 多少 B 是什么意思？

这三个词其实是同一件事的三种说法，用武侠类比最好理解：

武侠概念	大模型概念
内力	参数 / 权重
练功过程	训练
出手应敌	推理（回答问题）
内力大小	多少 B（几十亿个数字）

我们下载的那个 model.safetensors（15G）里面，存的就是 Gemma 4 全部的"内力"——40亿个精心调整过的浮点数。

参数多为什么更聪明？

参数 = 存知识的格子。格子越多，装得下的知识和规律越多，预测时参考的依据越充分，回答越准确。

4B  参数 → 日常对话、简单推理 ✅（今天用的）
70B 参数 → 专业领域、复杂逻辑
405B参数 → 接近顶级水平

但代价是：参数越多，文件越大，需要的显存越多，跑起来越慢越贵。E4B 是"够聪明 + 单卡可跑"的甜蜜点。

🧠 知识点 4：推理 vs 部署

概念	对应今天的操作	类比
部署	`vllm serve`，把模型架起来开放8000端口	后厨开火，挂上招牌等客人
推理	`vllm chat`，输入问题得到回答	服务员传菜，把问题送到后厨再端回答案

这也解释了为什么今天要开两个终端：

终端1（部署）：一直被 vLLM 服务占着，等于后厨永远开着火
终端2（推理）：负责发送问题、接收回答的"前台"

这个服务端 + 客户端的模式，是所有大模型 API 调用的底层结构，以后调用 OpenAI / Claude API 都是同样的逻辑。

🧠 知识点 5：ModelScope 魔搭是什么？

一句话：国内版 Hugging Face，专门解决"国内下模型慢"的痛点。

Hugging Face  → 服务器在海外，下载15G文件 = 可能1小时+，经常断线
ModelScope    → 阿里达摩院，服务器在国内，下载同样文件 = 7分钟 🚀

今天第一步把 pip 源换成腾讯云镜像，也是同样的思路——把下载通道从海外切到国内。

🧠 知识点 6：vLLM 是什么？

model.safetensors 里面只是几十亿个静静躺在硬盘里的数字，就像一本武功秘籍，秘籍本身不会打架。

vLLM 做了三件事，让模型从"死"变"活"：

加载：把15G数字从硬盘搬进GPU显存（把秘籍装进大脑）
优化：重排计算顺序，让GPU算得更快（把招式练熟）
开门营业：在8000端口开一个接口等待问题（挂招牌等客人）

模型文件（死的数字）
      ↓  vLLM
能对话的服务（活的智能）

vLLM = 把发动机零件组装好并发动的工程师

三、实操步骤记录

Step 1：登录 AMD Radeon Cloud

打开 AMD 开发者云平台
点击右上角「Login」→「Login with ModelScope」用魔搭账号登录
登录后进入 Radeon Cloud Gallery（不是课程列表！）
找到「Hello ROCm Bate」卡片，点击【Launch】→ 等3秒 → 点【Open Notebook】

💡 系统自动分配 10小时免费GPU算力，无需申请

Step 2：确认 GPU 环境可用

打开 Terminal，运行：

# 查看 GPU 状态
amd-smi

我的环境输出：

AMD Radeon Graphics
显存：49136 MB（约48GB）✅
温度：34°C ✅
ROCm version: 7.2.1

# 确认 PyTorch 能识别 GPU
python -c "import torch; print('PyTorch:', torch.__version__); \
print('ROCm available:', torch.cuda.is_available()); \
print('Device:', torch.cuda.get_device_name(0))"

输出：

PyTorch: 2.9.1+gitff65f5b
ROCm available: True ✅
Device: AMD Radeon Graphics ✅

Step 3：下载 Gemma 4 模型

# 切换到国内镜像源（加速下载）
pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/

# 安装 ModelScope
pip install modelscope

# 下载 Gemma 4（E4B版本，约15G，需要约8分钟）
modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

下载完成后验证：

ls -lh ./models/google/gemma-4-E4B-it/
# 看到 15G 的 model.safetensors = 下载完整 ✅

Step 4：更新 vLLM

uv pip uninstall torchvision
uv pip install vllm torchvision \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U

更新完成后看到：vllm==0.22.1+rocm722 ✅

Step 5：启动 vLLM 服务（部署）

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

等待看到：

Application startup complete. ✅

⚠️ 这个终端会被持续占用，不要按 Ctrl+C

Step 6：新开终端进行对话测试（推理）

# 新建第二个终端
vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

输入测试问题：

你是谁，你能做什么

模型回答（节选）：

我叫 Gemma 4，我由 Google DeepMind 开发……

对话成功！ 🎉

四、整体架构回顾

你的浏览器
    ↓（Jupyter Notebook）
AMD 云端服务器（ROCm GPU）
    ├── 硬盘：model.safetensors（15G 模型权重）
    ├── vLLM serve（加载到显存，开启8000端口）
    └── vLLM chat（发送问题 → 接收回答）

五、踩过的坑 & 经验总结

问题	原因	解决方法
AMD平台课程列表找不到 Notebook	Notebook 入口在 Radeon Cloud，不在课程目录	从 developer.amd.com.cn 点按钮跳转
Launch 报错 Unable to allocate NodePort	服务器GPU资源暂时不足	等2-3分钟重试，避开用人高峰
终端被 vLLM 占满无法输命令	服务端一直运行是正常现象	新建第二个终端做推理测试

六、我的思考与收获

通过这次动手实践，我最大的收获不是"学会了怎么跑模型"，而是把之前模糊的概念真正串联起来了：

为什么要用云：本地没显卡，云端现成的 GPU 拿来即用
为什么是 Gemma 4：开源可下载，40亿参数单卡跑得动
为什么用 ModelScope：国内下载快，7分钟 vs 可能1小时
vLLM 的价值：它是让死文件变成活服务的引擎
两个终端的设计：服务端 + 客户端，所有大模型API都是这个结构

最有意思的发现是：大模型"聪明"的底层，其实只是「概率预测下一个词」——而它的局限（幻觉）也正是这个机制的副产品。理解了这一点，就不会对 AI 既过度崇拜，也不会对它的偶尔出错感到奇怪了。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现）

可再生能源（RES）和储能系统（ESS）在微电网中的集成为最终用户和系统运营商提供了潜在的利益。然而，对于微电网的经济运行，需要对可再生能源的间歇性问题和ESS的高成本进行审查。本文提出了一种由电池和超级电容器组成的混合ESS微电网的两层预测能量管理系统（EMS）。考虑到混合ESS在充电深度（DOD）和寿命方面的退化成本，电池和超级电容器的长期成本被建模并转化为与实时操作相关的短期成本。

AtomGit开源社区

ICRA2026 最佳论文风向风向——具身智能拐点：世界模型、多模态融合与灵巧操作技术革命

AtomGit开源社区

发电机故障暂态仿真及电压电流变化特性研究（Simulink仿真实现）

同步发电机作为电力系统的核心发电设备，其运行稳定性直接决定电网供电可靠性。电网运行过程中各类短路、接地故障会引发发电机电磁暂态过程，造成机端电压、定子电流等电气参数剧烈波动，极易导致机组失稳、设备损毁甚至大面积停电事故。为系统探究发电机故障状态下的电气量演化规律，本文搭建标准化发电机电磁暂态仿真模型，模拟单相接地短路、两相短路、三相短路三类典型故障工况，通过仿真观测不同故障发生、发展及恢复全过程中