随着 minimax m2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 agent rl 系统的一些思考。 在大规模、复杂的真实世界场景中跑 rl 时,始终面临一个核心难题:如何在系统吞吐量、训练稳定性与 agent 灵活性这三者之间取得平衡。
近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。当前如 GAIA 与 BrowserComp 等主流数据集在构建过程中高度依赖 ...
大型语言模型(LLM)本身很强大,但知识是静态的,有时会“胡说八道”。为了解决这个问题,我们可以让它去外部知识库(比如维基百科、搜索引擎)里“检索”信息,这就是所谓的“检索增强生成”(RAG)。但这还不够,更高级的方法是让 LLM 变成一个能 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果