Gemma4模型

介绍

Gemma 4 是 Google DeepMind 于 2026 年 4 月 3 日发布的新一代开源多模态大模型家族,基于 Gemini 技术,主打 “强推理 + 全场景部署 + Apache 2.0 免费商用”,端侧到数据中心全覆盖。

优点

Gemma 4 有好几种大小,从能塞进手机、树莓派的,到要用服务器才跑得动的都有

规格

  • E2B
  • E4B
  • 26B
  • 31B

实践部分

查看AMD GPU信息

python -c "import torch; print('PyTorch:', torch.__version__); print('ROCm available:', torch.cuda.is_available()); print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"

输出结果

PyTorch: 2.10.0+git8514f05
ROCm available: True
Device: AMD Radeon Graphics

查看AMD显卡具体信息

命令如下

amd-smi

显示结果
在这里插入图片描述

设置国内源

pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/

安装Modelscope

pip install modelscope

下载模型

modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

启动 vLLM 服务

uv pip uninstall torchvision # 经测试,在该云环境中,需卸载重新安装这个库才能正常使用
uv pip install vllm torchvision \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U

启动后的界面:
在这里插入图片描述
Tips:这边如果遇到显存不足,可以降低最大上下文长度后再启动,命令如下:

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it --max-model-len 8192

对话测试

新开一个新的终端,复制如下命令:

vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

出现这个界面的时候就可以开始和大模型进行对话
在这里插入图片描述
我们输入如下提示词:

你是谁,你能做什么`

运行结果
在这里插入图片描述
对话完成后按两下Ctrl+C就可以退出回话了

总结

拉敲了一堆东西,那么我们到底这一节做了什么事情了,总结为以下四步:

第一步:先检查显卡能不能用。
第二步:把模型下载到本地。
第三步:用 vLLM 把模型启动成一个服务。
第四步:另开一个终端连上去对话。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐