2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗?来自 HuggingFace 的一篇文章给出了解释。 「9.9 和 9.11 到底哪个大?」这个问题一度难坏了各家大模型。 关于模型为什么会答错,研究人员给出了各种猜测,包括预 ...