Multi-Agent RL - 搜索 News

训练加速40倍、打破“不可能三角”：MiniMax Agent RL 架构解密

agent 自由度受限：将 agent 视为白盒就要求在 agent 和 rl framework 之间共享和传递状态。这种设计难以对复杂的 agent 架构（如动态上下文管理、multi-agent rl 等）进行建模，导致模型能力无法在复杂的黑盒 agent 上有效泛化。

腾讯网

MiniMax发布M2.5模型：1美元运行1小时，性能比肩Claude Opus

MiniMax推出了其最新迭代的M2.5系列模型，在保持行业领先性能的同时，大幅降低了推理成本，试图解决复杂Agent应用在经济上不可行的痛点，并宣称其在编程、工具调用及办公场景中已达到或刷新了行业SOTA（当前最佳）水平。2月13日，MiniMax ...

来自MSN

新一代文本模型MiniMax M2.5上线

近日，MiniMax正式上线新一代文本模型MiniMax M2.5，是一款定位为“原生Agent生产级模型”的产品。 10B激活参数跑出旗舰成绩在 ...

中华网

蚂蚁集团联合清华大学发布开源强化学习训练框架AReaL v1.0稳定版 Agent ...

蚂蚁集团联合清华大学发布开源强化学习训练框架AReaL v1.0稳定版 Agent一键接入RL训练！蚂蚁集团与清华大学联合发布了开源强化学习训练框架AReaL v1.0的稳定版。这一版本主打“Agent一键接入RL训练”，无需修改代码，兼容各种Agent框架，让智能体强化学习训练变得 ...

5 天

32B逆袭GPT-5.2：首个端到端GPU编程智能体框架StitchCUDA问世

结果是显著的：StitchCUDA 将 Hacking 率从 Kevin-32B 的 52% 降至 16%， Hacking 从 4 次降至 0 次。而去除 Rubric 的 StitchCUDA-A 变体，Hacking 率回升至 32%，进一步验证了 Rubric Reward 的因果效应。

来自MSN

春节档AI诸神之战开启

马年新春将至，国产AI大模型之战愈发火爆——短短一天时间，多家厂商密集更新模型，其中包括MiniMax上线新一代文本模型MiniMax M2.5。当各家大模型厂商围绕“春节档”展开密集发布与营销攻势，这款定位为“原生Agent生产级模型”的产品，正式加入这场被业界 ...

腾讯网

每周六晚，在星球「AI产品经理大本营」里，我们会发布AI周报（每天AI日报 + 我个人原创文章汇总）；今天是第401期，全文2.4万字（https://t.zsxq.com/21Vzw ）。下面是其中部分内容提炼：本周25个干货认知点+5个“黄钊hanniman评注”，共计1900字。一、本周20个干货认知点（一）关于OpenClaw 1、所谓云端一键部署OpenClaw，实质都是丐版（裸模 ...

一些您可能无法访问的结果已被隐去。