针对大模型长文本处理难题,Transformer架构的核心作者之一Llion Jones领导的研究团队开源了一项新技术DroPE。 不仅无需昂贵的长上下文训练,就能实现无缝零样本上下文扩展; 且用DroPE重新校准模型所需预训练预算不到1%。 这项技术被网友调侃为“NoRoPE”(没有 ...