Tokenization 分词流程可视化

自然语言处理中的文本编码管线 — 从原始文本到模型输入

步骤 1 / 5
原始文本(Raw Text)
"This movie is amazing!"

模型接收到一段自然语言文本。文本可以是任何语言,这里以英文为例演示完整分词流程。

步骤 2 / 5
分词(Tokenization)

分词器将文本拆分为词元(Token)。常用方法有 BPE、WordPiece、SentencePiece 等子词分词算法。

步骤 3 / 5
Token ID 映射

每个词元在词表中查找对应的整数索引。词表通常包含 30,000 ~ 100,000 个子词。

步骤 4 / 5
注意力掩码(Attention Mask)

注意力掩码标记哪些位置是真实词元(1)、哪些是填充(0),确保模型只关注有效输入。

步骤 5 / 5
词嵌入(Embeddings)

Token ID 通过嵌入矩阵转换为高维向量(如 768 维),向量捕获词语的语义信息,送入 Transformer 层。