微调方法/量化方法与计算资源的平衡

目前SFT领域如火如荼，出现全量微调，LoRA，QLoRA等微调方法，同时可以伴随着8bit和4bit的量化，最后分布式训练框架DeepSpeed ZeRO优化器可以选择不同的模式，这些都决定了最后的计算资源的消耗。

Notes:

我们来探索一下上述选项的组合吧，方便从业人员就本身的计算资源选择合适的组合方式。

模型我们采用LLaVA，由1.6B的CLIP-large-336和7B的Qwen1.5-7B模型组成，batch_size_per_device=8。

以下我们来列举可供选择的选项：

出现OOM。

故FT情况下至少需要17*20 = 340G。

出现OOM。

ZeRO-3会分布式的分配模型参数，反向梯度和优化器。

此处我们这里只有2台A100 40G，则每一台机器需要的显存为:(模型参数+反向传播梯度+优化器（fp32梯度，一阶矩，二阶矩）)=284/2=142G。

batch_size_per_device: 1

显存消耗：22G

计算时间：36h

batch_size_per_device: 4

显存消耗：30G

计算时间：24h

我们来探究一下为什么batch_size_per_device从1变成4，显存增加了8G。

trainable params: 170,196,992 || all params: 8,216,008,704 || trainable%: 2.071528866773703

如果显存足够的话，LoRA+无量化+ZeRO-0是训练速度最快的组合。

You Missed