本文作者 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,悉尼大学博士,研究方向为高效机器学习系统,方向覆盖 模型训推算法与系统协同设计,LLM 压缩与量化。团队成员均来自 TogetherAI,悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。 Together AI 于 2022 年 6 月 ...
3 月 24 日,Google Research 发布了一套名为 TurboQuant 的向量量化压缩算法,宣称能将大语言模型的 KV 缓存(Key-Value Cache)压缩至仅 3 比特,同时实现零精度损失。 在 NVIDIA H100 GPU 上的测试中,4 比特精度的 TurboQuant 在计算注意力 logits 时取得了相比 32 位未量化基线 ...
即使你对生成式 AI 模型的内部运作了解不多,也大概率知道它们极其吃内存。正因如此,如今想买一根普通内存条都免不了被狠狠加价。 最近,谷歌研究院发布了 TurboQuant 压缩算法,能够在提升运行速度并保持准确性不变的前提下,降低大语言模型(LLM)的 ...
近日,谷歌研究院发布了 TurboQuant 压缩算法,能够在提升运行速度并保持准确性不变的前提下,降低大语言模型(LLM)的内存占用。如果 TurboQuant 成功落地,可将 AI 运行时的 “工作内存”,也就是键值缓存(KV cache)压缩至少 6 倍,并在 H100 显卡上实现最高 8 倍的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果