LoRA 低秩矩阵分解可视化

矩阵分解可视化

冻结权重 W₀

可训练 LoRA 矩阵

低秩近似 ΔW

交互式秩调节

秩 r = 4

维度 d = 768（类似 BERT 隐藏层维度）

原始参数量

589,824

LoRA 参数量

6,144

节省比例

99.0%

数据流动动画

不同秩的参数量对比

核心设计思想

矩阵 B 在训练开始时初始化为全零，因此 ΔW = B × A = 0。这意味着训练起始时模型行为与预训练模型完全一致，保证了训练稳定性。

矩阵 A 使用随机高斯分布初始化，确保在 B 更新后梯度能有效传播。两个矩阵的不对称初始化是 LoRA 成功的关键。

推理阶段可将 LoRA 权重合并回原始矩阵：

W₀ + α·B·A = W

合并后无需额外计算，推理延迟为零。

预训练模型在下游任务上的适应性变化 ΔW 通常具有低秩特性，即可以用远少于 d×d 的参数来准确描述。LoRA 利用这一性质实现了极致的参数效率。