Cross-domain knowledge distillation often suffers from domain shift. Although domain adaptation methods have shown strong empirical success in addressing this issue, their theoretical foundations rema ...
2026 年刚拉开序幕,大模型(LLM)领域的研究者们似乎达成了一种默契。 当你翻开最近 arXiv 上最受关注的几篇论文,会发现一个高频出现的词汇:Self-Distillation。 近年来,基础模型取得了显著的成功,为语言、视觉、机器人等领域的 AI 应用提供了强大的支持。
我觉得这篇论文的一个主要贡献就是直击当前大模型(LLM)落地最痛点的问题:如何在无法获取私有大模型(如 GPT-5)权重和 Logits(概率分布)的“黑盒”情况下,高效地蒸馏出高性能的小模型。 所以论文提出了 Generative Adversarial Distillation (GAD,生成对抗蒸馏 ...