掩码语言模型 (MLM) 预训练
BERT 如何通过遮盖和预测来学习语言理解
原始句子
遮盖词元
模型处理
输出预测
输入句子
80% 替换为 [MASK]
10% 替换为随机词元
10% 保持不变
Transformer 编码器处理中
遮盖位置预测结果
训练统计
0%
遮盖比例
0/0
正确预测
--
困惑度
MLM 目标:
随机遮盖输入中约 15% 的词元,让模型根据上下文预测被遮盖的内容。 遮盖策略为:80% 替换为
[MASK]
、 10% 替换为
随机词元
、 10%
保持不变
。 这种设计迫使模型学习每个位置的深层语义表征,而不只是记忆 [MASK] 标记。
开始演示
重新遮盖
下一个句子
速度
1x