大语言模型的推理速度一直是推理服务关注的重点,一个良好的推理服务,应该保证在GPU高效运行的前提下,让不同长度、不同参数的请求时延均控制在合理的范围之内。另外,当今大语言模型种类繁多,在不同的领域下,其回答质量具有明显差距,用户挑选 ...