多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。 多模态大模型的代码能力在过去一年取得了惊人进展 —— 独立搭建项目、排查 bug、完成复杂重构,表现已可比肩资深工程师 ...
研究人员发现三种不同的ClickFix攻击活动通过虚假AI工具安装程序传播MacSync macOS信息窃取器。攻击者利用用户对ChatGPT等可信平台的信任,诱导用户在终端中执行恶意命令。最新变种支持动态AppleScript载荷和内存执行以规避检测。威胁行为者还利用受损WordPress网站和虚假验证码页面分发多种恶意软件,包括StealC、Vidar等窃取器。
作者 | 北京大学 DCAI 团队在大模型(LLM)研发进入深水区的 2026 年,行业共识正经历从“模型中心(Model-Centric)”向“数据中心(Data-Centric)”的深刻演进。随着 Scaling Law ...
论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning。作者之一,就是罗福莉。 要用GPU去做模型推理,要用CPU去执行代码,要用API去处理搜索、数据库,可能还要用浏览器进行网页操作 ...
3月16日消息,小米AI实验室研究员罗福莉,也就是很多人口中的“天才少女”,又发论文了。论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning。作者之一,就是罗福莉。如果只看标题,这篇论文似乎只是一个偏工程的研究:如何让AI ...
你有没有讲过“不合适”的笑话,买过“不合适”的拖地长裤。当你把本该属于「这样」的东西强行用来「那样」,这种unsuitable就会带来别样的幽默和潮流。我们正处在一个万物皆可错位的时代:最顶尖的AI算力不去计算宇宙大爆炸,而是盯着你的尿频以便翻桌;想 ...
多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。 活跃在AGI基础研究前沿的技术团队UniPat AI构建了一个极简的视觉智能体框架——SWE-Vision,让模型可以编写并执行Python代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision均达到了当前最优水平。 模型看得见,却没法精确处理 多模态大模型的代码能力在过去一年取得了惊人进展——独立搭建项目、 ...
尽管业界普遍推荐,但苏黎世联邦理工学院(ETH Zurich)的一篇新论文得出结论, AGENTS.md 文件可能经常阻碍 AI 编码智能体。研究人员建议完全省略由 LLM ...
人工智能领域正经历一场从“模型中心”向“Agent系统”的范式转移。传统AI系统以单一模型为核心,通过输入数据、模型计算、输出结果的线性流程完成任务,其资源消耗集中于GPU算力。但随着AI Agent技术的突破,计算模式发生根本性变化——系统开始整合GPU、CPU、API接口、存储设备和网络资源,形成多维度资源协同的复杂架构。 以典型任务为例,现代AI ...