多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python ...
论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning。作者之一,就是罗福莉。 要用GPU去做模型推理,要用CPU去执行代码,要用API去处理搜索、数据库,可能还要用浏览器进行网页操作 ...
3月16日消息,小米AI实验室研究员罗福莉,也就是很多人口中的“天才少女”,又发论文了。论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement ...
9 小时on MSN
小米研究员罗福莉新论文聚焦AI Agent:动作级调度破解算力浪费难题
人工智能领域正经历一场从“模型中心”向“Agent系统”的范式转移。传统AI系统以单一模型为核心,通过输入数据、模型计算、输出结果的线性流程完成任务,其资源消耗集中于GPU算力。但随着AI Agent技术的突破,计算模式发生根本性变化——系统开始整合GPU、CPU、API接口、存储设备和网络资源,形成多维度资源协同的复杂架构。 以典型任务为例,现代AI ...
多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。 活跃在AGI基础研究前沿的技术团队UniPat AI构建了一个极简的视觉智能体框架——SWE-Vision,让模型可以编写并执行Python代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision均达到了当前最优水平。 模型看得见,却没法精确处理 多模态大模型的代码能力在过去一年取得了惊人进展——独立搭建项目、 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果