Tokenizer深度剖析：大模型是怎么理解文字的

大模型不认识"字"，它只认识token。Tokenizer是人类语言和模型之间的翻译器。

BPE算法

Byte Pair Encoding：初始化把每个字符当一个token，统计相邻token对频率，合并频率最高的对，重复直到达到目标词汇量。“lower"可能被分成[“low”,“er”]。

GPT用tiktoken，词汇量约10万。Qwen对中文优化，一个汉字通常1-2个token。Llama词汇量只有32K，中文效率低，同样内容消耗更多token。

这也是为什么用Llama处理中文时，实际可用上下文窗口比英文短。

计费按token，不同Tokenizer导致同样文本不同花费。上下文窗口按token算不是按字符。代码任务中某些Tokenizer分词效率差，消耗更多token。

import tiktoken
enc = tiktoken.encoding_for_model("gpt-4o")
print(len(enc.encode("你好世界")))

处理中文为主选Qwen的Tokenizer，比Llama更节省token。

模型选型没有标准答案，取决于具体场景。几个关键维度：

实际操作中，建议先用API快速验证效果，再决定是否自部署。

模型太大装不进显存？几个压缩方案：