结果是显著的:StitchCUDA 将 Hacking 率从 Kevin-32B 的 52% 降至 16%, Hacking 从 4 次降至 0 次。而去除 Rubric 的 StitchCUDA-A 变体,Hacking 率回升至 32%,进一步验证了 Rubric Reward 的因果效应。