agent 自由度受限:将 agent 视为白盒就要求在 agent 和 rl framework 之间共享和传递状态。这种设计难以对复杂的 agent 架构(如动态上下文管理、multi-agent rl 等)进行建模,导致模型能力无法在复杂的黑盒 agent 上有效泛化。
MiniMax推出了其最新迭代的M2.5系列模型,在保持行业领先性能的同时,大幅降低了推理成本,试图解决复杂Agent应用在经济上不可行的痛点,并宣称其在编程、工具调用及办公场景中已达到或刷新了行业SOTA(当前最佳)水平。2月13日,MiniMax ...
近日,MiniMax正式上线新一代文本模型MiniMax M2.5,是一款定位为“原生Agent生产级模型”的产品。 10B激活参数跑出旗舰成绩 在 ...
蚂蚁集团联合清华大学发布开源强化学习训练框架AReaL v1.0稳定版 Agent一键接入RL训练!蚂蚁集团与清华大学联合发布了开源强化学习训练框架AReaL v1.0的稳定版。这一版本主打“Agent一键接入RL训练”,无需修改代码,兼容各种Agent框架,让智能体强化学习训练变得 ...
结果是显著的:StitchCUDA 将 Hacking 率从 Kevin-32B 的 52% 降至 16%, Hacking 从 4 次降至 0 次。而去除 Rubric 的 StitchCUDA-A 变体,Hacking 率回升至 32%,进一步验证了 Rubric Reward 的因果效应。
马年新春将至,国产AI大模型之战愈发火爆——短短一天时间,多家厂商密集更新模型,其中包括MiniMax上线新一代文本模型MiniMax M2.5。 当各家大模型厂商围绕“春节档”展开密集发布与营销攻势,这款定位为“原生Agent生产级模型”的产品,正式加入这场被业界 ...
每周六晚,在星球「AI产品经理大本营」里,我们会发布AI周报(每天AI日报 + 我个人原创文章汇总);今天是第401期,全文2.4万字(https://t.zsxq.com/21Vzw )。 下面是其中部分内容提炼:本周25个干货认知点+5个“黄钊hanniman评注”,共计1900字。 一、本周20个干货认知点 (一)关于OpenClaw 1、所谓云端一键部署OpenClaw,实质都是丐版(裸模 ...