自然语言处理中的文本编码管线 — 从原始文本到模型输入
模型接收到一段自然语言文本。文本可以是任何语言,这里以英文为例演示完整分词流程。
分词器将文本拆分为词元(Token)。常用方法有 BPE、WordPiece、SentencePiece 等子词分词算法。
每个词元在词表中查找对应的整数索引。词表通常包含 30,000 ~ 100,000 个子词。
注意力掩码标记哪些位置是真实词元(1)、哪些是填充(0),确保模型只关注有效输入。
Token ID 通过嵌入矩阵转换为高维向量(如 768 维),向量捕获词语的语义信息,送入 Transformer 层。