2026 年的前两个月,开源大模型的发布节奏已快至令人应接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智谱 AI 的 GLM-5、Cohere 的 Tiny Aya……它们的名称如流水般接踵而至,参数量从 3B 至 1T 不等,每一款都宣称是“SOTA”或者“最强开源”。 然而,如此快的更新速度,对于普通开发者而言,莫说深入研究, ...
3 月 16 日消息,小米 AI 实验室研究员罗福莉,也就是很多人口中的 " 天才少女 ",又发论文了。 论文名叫 ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning。作者之一,就是罗福莉。
2025年,是一个曾被寄予厚望的“Agentic AI元年”,它确实也没让人失望,但也没有想象中的激荡: 年初,Manus横空出世,展示了Agent无缝协作的惊艳效果,但随后并未在大众市场上掀起多大的波澜,直到年末,团队被Meta收购。 年中,豆包手机将个人Agent深度嵌入操作系统,功能强大,但随之带来的权限和安全问题,让它胎死腹中。 年末,千问Agent让你用一句话便丝滑到手一杯奶茶;但奶茶虽 ...
《hzwer 的 OpenClaw 实战完全指南:让小龙虾 24 小时值班干活》 深度使用了两周,来总结一些工作流和坑点。因为每个人遇到的问题可能不同,我也只是在我的一些任务上跑通流程,仅供参考,欢迎拍砖。 注意:本文代码块内容不是给人读的,基本是要发给小龙虾读 核心定位:OpenClaw 是 AI 的 OS Shell,通过飞书/TG 实现 24 ...
在当今科技迅猛发展的时代,人工智能(AI)已成为各领域不可或缺的力量。然而,AI推理模型在解决问题时所面临的挑战也日益突出。近期,斯坦福大学与慕尼黑大学路德维希-马克西米利安分校的研究团队联合发布了一项重要研究,揭示了AI推理模型在处理数学问题时可能陷入的“群体迷思”陷阱,并提出了一种创新的解决方案。该研究题为“Tool Verification for Test-Time ...
科技行者 on MSN
斯坦福和慕尼黑大学联合发现:AI推理模型的“群体迷思”陷阱及 ...
当我们让一个智能推理模型解决数学题时,通常会让它生成多个答案,然后选择出现次数最多的那个作为最终答案。这种做法看起来很合理,就像多个人投票选择答案一样。但是,来自斯坦福大学和慕尼黑大学路德维希-马克西米利安分校的研究团队最近发现了一个严重问题:当这些模型在错误答案上形成"共识"时,就会陷入越来越深的错误循环。 这项名为"Tool Verification ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果