作者 | 白铂 博士白铂 博士 华为 2012 实验室理论研究部主任 ...
在目前流行的预填充-解码分离系统中,命中token的KV缓存完全由预填充引擎直接从远程存储加载。这种设计将所有存储I/O压力集中在预填充端的网卡上,而解码引擎端的网卡则基本处于空闲状态。