QLoRA 量化可视化

4-bit 量化 + 低秩自适应 -- 让大模型微调触手可及

精度对比塔
NF4 正态分布量化

点击曲线区域查看值映射到哪个 NF4 量化级别

NF4 基于正态分布假设,将 16 个量化级别按分位数分配,使得每个区间内的概率质量相等,从而最小化量化误差。
点击左侧分布曲线查看映射结果
QLoRA 架构流程
4-bit 量化基模型
LoRA 适配器 (A/B)
前向传播
反向传播 (仅 LoRA)
三大核心创新
N4

NF4 量化

信息论最优的 4-bit 数据类型,量化级别按正态分布的分位数放置,完美匹配预训练权重分布。

Q2

双重量化

对量化常数再次量化,将额外的内存开销从每个参数 0.5 bit 降低至 0.127 bit。

FP32 量化常数
第一次量化
FP8 常数
第二次量化
PM

分页优化器

利用 NVIDIA 统一内存,当 GPU 显存不足时自动将优化器状态卸载到 CPU 内存。

GPU
CPU
显存节省计算器