自动驾驶仿真领域长期面临三大挑战:多视角数据采集成本高、Corner Case 覆盖困难、仿真与真实场景差距大。一套多视角采集系统动辄百万级成本,而实际路测中几乎不可能系统性地覆盖"大象横穿马路"这类极端场景。 今年 2 月,Waymo 联合 Google DeepMind 重磅发布了 Waymo World Model,基于 Genie 3 构建,能生成超逼真的多传感器仿真数据,把行车记录仪视频 ...
该事件相关细节均以论文为公开记录,暂无额外官方置评 ...
人类在操作软件时,之所以效率很高,是因为在行动前会形成一种内部判断:这个操作大概会带来什么结果。如果结果不符合目标,往往在点击前就会放弃,而不是等系统报错。这其实是一种对「动作 → 状态变化」的理解。
而很多当前的 GUI Agent 缺少的正是这一层。它能识别界面、能理解指令,却仍然主要依赖真实交互去排除错误路径。也就是在环境里不断试错,直到碰到正确步骤。换句话说,它更像是在反应,而不是在决策。