Qwen3.5微调实战教程（非常详细），医疗AI助手从入门到精通，收藏这一篇就够了！

小天才学习机打游戏

550人浏览 · 2026-03-23 11:57:02

小天才学习机打游戏 · 2026-03-23 11:57:02 发布

最近在帮一个医疗创业团队做技术支持，他们想把通用大模型改造成能回答专业医疗问题的智能助手。今天就把整个过程整理出来，希望对有类似需求的朋友有所帮助。

**核心工具链：**LLaMA-Factory + Qwen3.5-4B + 医疗问答数据集

Qwen3.5 是阿里最新发布的千问系列模型，4B 参数量刚好卡在"效果够用 + 显存友好"的甜蜜点；LLaMA-Factory 则是目前开源社区最成熟的微调框架，上手简单，坑也相对少。

准备工作

先说硬件要求。4B 模型用 LoRA 微调的话，一张 12GB 显存的显卡就够了（比如 RTX 4070）。如果手头只有 8GB 显存的卡，可以上 QLoRA 量化方案，牺牲一点精度换显存空间。

微调方式	4B 模型显存需求	推荐显卡
LoRA (16-bit)	~10-12 GB	RTX 4070 / RTX 3090
QLoRA (8-bit)	~6-8 GB	RTX 4060 / RTX 3070
QLoRA (4-bit)	~4-6 GB	RTX 3060

软件环境这边，建议 Python 3.11+，PyTorch 2.0 以上。CUDA 版本最好 12.x，兼容性更好。

下载 Qwen3.5-4B 模型

模型从魔搭社区下载，国内速度很快：

# 安装
modelscope pip install modelscope
# 方式一：Python 代码下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-4B')
print(f"模型已下载到: {model_dir}")
# 方式二：命令行下载
modelscope download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B

**💡 小贴士：**模型大约 9.3GB，建议挂个代理或者选择网络好的时间段下载。下载完记得检查一下文件完整性。

搭建 LLaMA-Factory 环境

LLaMA-Factory 的安装很直接：

# 克隆仓库
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
# 安装依赖
pip install -e . pip install -r requirements/metrics.txt
# 如果需要 DeepSpeed 加速（可选）
pip install -r requirements/deepspeed.txt

装完之后可以跑一下测试命令确认环境没问题：

llamafactory-cli version

准备医疗数据集

数据集是微调效果的关键。这里用的是开源的中文医疗问答数据，主要来自几个渠道：

数据来源推荐：

GitHub 上有个 llm-medical-data 仓库，整理了几十万条医疗问答数据，覆盖内科、外科、妇产科、儿科等科室。另外 HuggingFace 上的 shibing624/medical 数据集也不错，格式比较规范。

LLaMA-Factory 要求的数据格式是这样的：

[
{
"instruction": "你是一个专业的医疗助手，请根据患者描述给出建议。",
"input": "我最近总是头痛，尤其是下午的时候，已经持续一周了。",
"output": "持续性头痛需要关注。建议您先排除以下几个常见原因：1）睡眠质量，2）用眼过度，3）颈椎问题。如果休息后仍不缓解，建议到医院神经内科就诊，做个头部CT检查。"
},
{
"instruction": "你是一个专业的医疗助手，请根据患者描述给出建议。",
"input": "孩子3岁，发烧38.5度，要不要去医院？",
"output": "38.5度属于中度发热。可以先在家观察处理：1）物理降温，温水擦拭腋下、腹股沟；2）保持室内通风；3）多喝水。如果体温超过39度、持续超过3天、或出现精神萎靡、抽搐等情况，需要立即就医。"
},
...
]

把处理好的数据放到 data/ 目录下，然后在 data/dataset_info.json 里注册：

{
"medical_qa": {
"file_name": "medical_qa.json",
"columns": {
"prompt": "instruction",
"query": "input",
"response": "output"
}
}
}

开始微调

配置文件是整个流程的核心。在 examples/train_lora/ 下创建一个 qwen35_medical_lora.yaml：

### 模型配置 ###
model_name_or_path: ./models/Qwen3.5-4B
trust_remote_code: true
### 微调方法 ###
stage: sft
do_train: true
finetuning_type: lora
lora_rank: 64
lora_alpha: 128
lora_target: all
### 数据集配置 ###
dataset: medical_qa
template: qwen3
cutoff_len: 2048
preprocessing_num_workers: 8
### 训练参数 ###
output_dir: ./output/qwen35_medical_lora
per_device_train_batch_size: 2
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
logging_steps: 10
save_steps: 500
### 显存优化 ###
bf16: true
gradient_checkpointing: true

参数解读：
• lora_rank: 64 —— LoRA 秩，越大表达能力越强，但显存占用也越大
• lora_target: all —— 对所有线性层应用 LoRA，效果更好
• gradient_checkpointing: true —— 用时间换空间，降低显存占用

一切就绪，启动训练：

llamafactory-cli train \
examples/train_lora/qwen35_medical_lora.yaml

训练过程中可以通过 TensorBoard 监控 loss 曲线：

tensorboard --logdir=./output/qwen35_medical_lora/runs

在我的测试环境（RTX 4090）上，1万条数据训练 3 个 epoch 大约需要 40 分钟。

测试效果

训练完成后，先在命令行跑个快速测试：

llamafactory-cli chat \
examples/inference/qwen35_medical_lora.yaml

对应的推理配置文件 qwen35_medical_lora.yaml：

model_name_or_path: ./models/Qwen3.5-4B
adapter_name_or_path: ./output/qwen35_medical_lora
template: qwen3
finetuning_type: lora

实测下来，微调后的模型在医疗问答上明显比原版更专业。比如问"孕妇能不能吃螃蟹"，原版模型可能给个模棱两可的回答，微调后的版本会从中医寒凉属性、现代营养学、个体差异等多个角度分析，更像一个有经验的医生。

导出和部署

如果效果满意，可以把 LoRA 权重合并到基座模型里，方便后续部署：

llamafactory-cli export \
examples/merge_lora/qwen35_medical_merge.yaml

合并配置：

model_name_or_path: ./models/Qwen3.5-4B
adapter_name_or_path: ./output/qwen35_medical_lora
template: qwen3
finetuning_type: lora
export_dir: ./models/Qwen35-Medical
export_size: 2
export_device: cuda
export_legacy_format: false

合并后的模型可以直接用 vLLM 或者 SGLang 部署成 API 服务：

# vLLM 部署
pip install vllm
vllm serve ./models/Qwen35-Medical \
--port 8000
# 或者 LLaMA-Factory 内置的 API 服务
API_PORT=8000 llamafactory-cli api \
examples/inference/qwen35_medical.yaml

踩坑记录

分享几个我遇到过的问题：

1. 显存不够用

把 per_device_train_batch_size 调小，或者启用 gradient_checkpointing。实在不行就上 4-bit 量化。

2. Loss 不下降

检查数据格式是否正确，尤其是 dataset_info.json 里的字段映射。另外学习率不要设太大，1e-4 到 5e-5 之间比较稳。

3. 微调后模型变傻了

可能是数据质量问题，或者训练轮数太多导致过拟合。适当减少 epoch 数，或者在数据里混入一些通用对话保持泛化能力。

医疗领域的 AI 应用一定要注意：模型输出仅供参考，不能替代专业医生的诊断。在产品设计时要做好免责声明和人工审核机制。

整个流程走下来，从环境搭建到模型部署，熟练的话半天就能搞定。LLaMA-Factory 确实把微调的门槛降低了很多，配合 Qwen3.5 这样的高质量基座模型，普通开发者也能做出效果不错的垂直领域 AI 助手。

当然，真要做成产品级的医疗 AI，还需要在数据质量、安全合规、持续迭代等方面下功夫。但至少，迈出第一步没那么难。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

我们如何利用「混沌工程」工具Chaos Blade进行故障演练？

而Chaos Blade作为阿里巴巴开源的混沌工程实验工具，凭借其轻量级、易用性和丰富的故障场景支持，成为故障演练的利器。这种与K8s深度集成的能力，使得在微服务架构下进行服务熔断、节点宕机等演练变得异常简单，有效验证服务网格的容错机制。Chaos Blade支持创建复杂的演练场景。建议将演练结果与监控系统、日志平台的数据进行关联分析，找出系统的薄弱环节，持续优化架构设计。通过定期使用Chaos

AtomGit开源社区

AI 辅助学术写作（五）：模块化论文撰写与开源交付——从草稿到可复现研究包

这两个部分放在最后写，因为它们是对全文的精炼，而不是提前预设的框架。请基于以下信息，撰写一个150-200字的学术摘要。【摘要必须包含的五个要素】1. 研究问题（一句话）：[你的核心研究问题]2. 研究方法（一句话）：[数据来源 + 识别策略]3. 核心发现（两句话）：[主要系数 + 经济含义]4. 异质性/机制（一句话）：[最重要的一个扩展发现]5. 政策含义（一句话）：[对政策制定的启示]【格

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、