北京时间1月13日凌晨四点,Anthropic发布AI智能协作工具Claude Cowork,AI办公自动化领域从此迎来全新时代。 Claude Cowork定位为办公领域的“Claude Code”,图片来源:Claude官网 ...
作为清华“姚班”的传奇校友,他曾是IOI的银牌得主;作为OpenAI早期的核心成员,他亲历了那群被主流学界视为“神棍”的非主流天才如何用非共识打破了Google的围剿;而作为清华大学交叉信息研究院的助理教授和AReal项目负责人,他又在这个巨头林立的时代,试图在构建属于自己、不断拓展的人生算法。 当时的Facebook AI Research里坐镇的是啥人?是何恺明、Ross Girshick这种 ...
蚂蚁集团联合清华大学发布开源强化学习训练框架AReaL v1.0稳定版 Agent一键接入RL训练!蚂蚁集团与清华大学联合发布了开源强化学习训练框架AReaL v1.0的稳定版。这一版本主打“Agent一键接入RL训练”,无需修改代码,兼容各种Agent框架,让智能体强化学习训练变得 ...
结果是显著的:StitchCUDA 将 Hacking 率从 Kevin-32B 的 52% 降至 16%, Hacking 从 4 次降至 0 次。而去除 Rubric 的 StitchCUDA-A 变体,Hacking 率回升至 32%,进一步验证了 Rubric Reward 的因果效应。
每周六晚,在星球「AI产品经理大本营」里,我们会发布AI周报(每天AI日报 + 我个人原创文章汇总);今天是第401期,全文2.4万字(https://t.zsxq.com/21Vzw )。 下面是其中部分内容提炼:本周25个干货认知点+5个“黄钊hanniman评注”,共计1900字。 一、本周20个干货认知点 (一)关于OpenClaw 1、所谓云端一键部署OpenClaw,实质都是丐版(裸模 ...
真实环境充斥着验证码与异常弹窗导致长轨迹数据极难收集。不同平台如手机、桌面、浏览器的动作空间存在显著差异,混合训练容易引发梯度冲突。同时,真实任务通常需要模型具备长程记忆、工具调用及多Agent协作能力。