标准答案
LoRA:将权重更新分解为低秩矩阵 W' = W + AB(A∈R^{d×r}, B∈R^{r×k}),r远小于d/k。只训练A/B,参数量减少99%+
QLoRA:在LoRA基础上将基座模型量化到4bit(NF4),用bfloat16做计算,单卡24G可跑7B。关键:double quantization + paged optimizer
IA³:引入可学习缩放向量,参数更少,但效果有时弱于LoRA
24G单卡跑7B的完整配置:
- 基座4bit量化(bitsandbytes)
- LoRA rank=16, alpha=32, target: q_proj/v_proj
- 梯度检查点(gradient_checkpointing=True)
- batch_size=1, gradient_accumulation=8
- 序列长度≤2048
加分项
能说出NF4量化的信息论依据(权重近似正态分布)
知道Paged Optimizer解决的是显存碎片问题
提到用unsloth加速LoRA训练可达2x+