Meta 发布新多token预测技术，使AI模型速度提升3倍

原标题：Meta 发布新多token预测技术，使AI模型速度提升3倍

导读：

由任嘉伦和邢菲合作主演的古装剧烈焰终于迎来了大结局这部剧在上线之后就一直备受关注因为原的热度就很高所以大家也都希望能够从这部翻拍剧中感受到同样的热情值得一提的是这部剧的特效做得...

由任嘉伦和邢菲合作主演的古装剧《烈焰》终于迎来了大结局，这部剧在上线之后就一直备受关注，因为原IP的热度就很高，所以大家也都希望能够从这部翻拍剧中感受到同样的热情。值得一提的是，这部剧的特效做得不错，这也是很多观众能够一如既往支持下去的原因，另外剧中几位演员对角色的还原度也非常高。刚开始的时候...

划重点:

⭐ 研究人员在、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的一项研究中提出了通过同时预测多个token来改进 AI 大型语言模型（LLMs）的准确性和速度。

⭐ 多token预测使模型在推理时间上提升了3倍，并在生成任务上表现更佳，特别是对于长期模式的学习。

⭐ 这项研究为企业应用提供了更快的推理速度和更高的准确性，特别适用于生成任务，同时与 Transformer 块的其他优化技术兼容。

5月7日消息:近期，Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的研究人员在一项研究中提出了一种改进 AI 大型语言模型（LLMs）准确性和速度的方法，即通过同时预测多个token。这与自回归语言模型的经典结构相悖，后者旨在一次预测一个token。

然而，多token预测并非适用于所有类型的模型和语言任务，但在某些领域中提供了重大优势，推理速度提升了3倍，并在生成任务上表现更佳。虽然仍有改进空间，但这项技术可能成为某些 LLM 应用的强大工具。

传统的训练 LLMs 的方法被称为 “下一个token预测”，这是一种自监督学习技术，模型被给定一个token序列，必须预测下一个token。然后将预测的token添加到输入中，重复这个过程，一次预测一个token。在大量文本语料上重复此过程，模型学习了允许它输出连贯文本段落的一般模式。

研究人员已经研究并记录了下一个token预测在获取语言、世界知识和推理能力方面的局限性。新研究的假设是 “训练语言模型同时预测多个未来token会导致更高的样本效率”。

多token预测指示 LLM 同时预测训练语料库中每个位置的多个来token。研究人员提出了一个简单的多token预测架构，不需要额外的训练时间或内存开销。

他们在多种任务上测试了新的多token预测方案，发现在小型模型上，多token预测导更差的结果，但随着模型规模的增加，它变得越来越有用。此外，多token预测还使模型在推理时间上提升了3倍，尤其在 “字节级标记化” 训练上，多字节预测大幅优于基线的单字节预测模型。多token预测仍有改进空间，研究人员正在考虑自动选择最佳预测token数量的技术，以及研究词汇量和多token预测之间的动态关系。

这项研究及其未来的改进对企业应用有用的地方在于，它有可能为生成任务提供更快的推理和更高的准性，几乎不需要额外的成本。同时，它保留了大部分 LLM 架构，可以与 Transformer 块的其他优化技术兼容。