主流 GPU 对整数矩阵乘支持有限所引发的计算效率低下问题。 在推理引擎层面,ABQ-LLM 基于二值化矩阵乘(BTC) 等价重构了任意精度组合的矩阵乘,从而突破了 INT4/INT8 计算单元的限制,开创性地实现了任意比特量化组合的直接加速,结合深度工程优化,实现了 ...