Tokenization 分词流程可视化

自然语言处理中的文本编码管线 — 从原始文本到模型输入

步骤 1 / 5

原始文本（Raw Text）

"This movie is amazing!"

模型接收到一段自然语言文本。文本可以是任何语言，这里以英文为例演示完整分词流程。

步骤 2 / 5

分词（Tokenization）

分词器将文本拆分为词元（Token）。常用方法有 BPE、WordPiece、SentencePiece 等子词分词算法。

步骤 3 / 5

Token ID 映射

每个词元在词表中查找对应的整数索引。词表通常包含 30,000 ~ 100,000 个子词。

步骤 4 / 5

注意力掩码（Attention Mask）

注意力掩码标记哪些位置是真实词元（1）、哪些是填充（0），确保模型只关注有效输入。

步骤 5 / 5

词嵌入（Embeddings）

Token ID 通过嵌入矩阵转换为高维向量（如 768 维），向量捕获词语的语义信息，送入 Transformer 层。