Low-Rank Adaptation — 用极少参数实现大模型高效微调
矩阵 B 在训练开始时初始化为 全零,因此 ΔW = B × A = 0。
这意味着训练起始时模型行为与预训练模型完全一致,保证了训练稳定性。
矩阵 A 使用随机高斯分布初始化,确保在 B 更新后梯度能有效传播。
两个矩阵的不对称初始化是 LoRA 成功的关键。
推理阶段可将 LoRA 权重合并回原始矩阵:
合并后无需额外计算,推理延迟为零。
预训练模型在下游任务上的适应性变化 ΔW 通常具有低秩特性,
即可以用远少于 d×d 的参数来准确描述。LoRA 利用这一性质实现了极致的参数效率。