CS336
未读
BPE编码器原理与实现
01.BPE原理 1.1 一句话说明 BPE 就是不断地把出现频率最高的相邻字节对h合并成一个新 token,直到词表达到目标大小。 1.2 为什么要做BPE BPE缩短了序列长度: 单个 token 的计算开销与它包含的字节数无关(1 字节 token 和 10 字节 token,进入模型后都是相