近日,来自中国科学院大学高等交叉科学学院的冯轶春、中国科技大学电子工程与信息科学系的王嘉伟、广州国家实验室的周璐以及中国科学院上海营养与健康研究所的李奕学等研究人员在预印本平台arXiv上发表了题为《DoctorAgent-RL: A Multi-Agent Collaborative ...
当我们谈论大型语言模型(LLM)的"强化学习"(RL)时,我们在谈论什么?从去年至今,RL可以说是当前AI领域最炙手可热的词汇。 在过去很长一段时间里,这个词几乎等同于 RLHF(人类反馈强化学习)一种用于"对齐"的技术,它教会模型拒绝有害问题、生成更符合 ...
本文将继昨天的《LLM为什么能替你操作电脑? 4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这》为您深度剖析这份奠基性的综述,揭示 Agentic RL 是如何系统性地构建规划、工具使用、记忆和反思等核心智能的。