基于transformers，用GPU训练的显存优化方法

588 · 2023-12-26 15:50:59 发布

声明：以下基本都是基于时间换空间的方法，微调方法用的是firefly（流萤）框架

1. 减小"per_device_train_batch_size",设置 "gradient_accumulation_steps"。这样在计算梯度的时候是每per_device_train_batch_size*gradient_accumulation_steps个样本计算一下

2.设置gradient_checkpointing，模型不缓存激活状态，会进行两次forward计算，以节省显存。

3.优化器改成Adafactor

4.对原大模型的params进行with torch.no_grad操作，不更新原来大模型的参数，只针对后处理层进行训练

5.减小语料的max length：“max_seq_length”

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 浪潮终章奏凯！GitCode & 文心大模型 & 智源研究院 AI 应用开发大赛圆满落幕

AI 重塑开源协作：AtomGit 开源实践交流分论坛在京顺利举行

寒假充电计划启动！解锁 Flutter-OH 新技能 | 21 天训练营招募中

查看更多评论

已为社区贡献1条内容