LoRA 低秩矩阵分解

Low-Rank Adaptation — 用极少参数实现大模型高效微调

h = W₀x + α · B · A · x 其中 ΔW = B × A
矩阵分解可视化
冻结权重 W₀
可训练 LoRA 矩阵
低秩近似 ΔW
交互式秩调节
秩 r = 4
维度 d = 768(类似 BERT 隐藏层维度)
原始参数量
589,824
LoRA 参数量
6,144
节省比例
99.0%
数据流动动画
不同秩的参数量对比
核心设计思想

B 初始化为零矩阵

矩阵 B 在训练开始时初始化为 全零,因此 ΔW = B × A = 0。 这意味着训练起始时模型行为与预训练模型完全一致,保证了训练稳定性。

A 使用随机高斯初始化

矩阵 A 使用随机高斯分布初始化,确保在 B 更新后梯度能有效传播。 两个矩阵的不对称初始化是 LoRA 成功的关键。

推理时零额外延迟

推理阶段可将 LoRA 权重合并回原始矩阵:

W₀ + α·B·A = W

合并后无需额外计算,推理延迟为零。

低秩假设的数学直觉

预训练模型在下游任务上的适应性变化 ΔW 通常具有低秩特性, 即可以用远少于 d×d 的参数来准确描述。LoRA 利用这一性质实现了极致的参数效率。