QLoRA 量化可视化

4-bit 量化 + 低秩自适应 -- 让大模型微调触手可及

精度对比塔

NF4 正态分布量化

点击曲线区域查看值映射到哪个 NF4 量化级别

NF4 基于正态分布假设，将 16 个量化级别按分位数分配，使得每个区间内的概率质量相等，从而最小化量化误差。

点击左侧分布曲线查看映射结果

QLoRA 架构流程

4-bit 量化基模型

LoRA 适配器 (A/B)

前向传播

反向传播 (仅 LoRA)

三大核心创新

信息论最优的 4-bit 数据类型，量化级别按正态分布的分位数放置，完美匹配预训练权重分布。

对量化常数再次量化，将额外的内存开销从每个参数 0.5 bit 降低至 0.127 bit。

FP32 量化常数

第一次量化

FP8 常数

第二次量化

利用 NVIDIA 统一内存，当 GPU 显存不足时自动将优化器状态卸载到 CPU 内存。

GPU

➜➜

CPU

显存节省计算器