【新智元导读】Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
想象一下,你收到一封电子邮件,里面写着你公司的机密、你的个人财务状况,甚至你面临的监管压力,发件人索要 50 万美元等值的比特币,否则你的数据将被公之于众。 更可怕地是,这封邮件并非出自黑客团队之手,而是由 AI 代理在几秒钟内生成的。