基于这些关键发现,研究团队进一步提出了一个 training-free 的并行推理控制算法 Parallel-Probe,能够在不牺牲核心准确率的前提下,显著减少无效计算,将推理延迟降低 35.8%,总 token 成本降低 25.8%。
在当今人工智能的浪潮中,大模型推理的进步无疑是技术界的一大亮点。随着ParallelThinking时代的到来,推理效率的提升成为了各大研究团队的共同目标。然而,随着并行推理技术的不断发展,一个重要的问题也逐渐浮出水面:在这一过程中,模型究竟在进行什么样的计算?