在人工智能领域的快速发展中,谷歌的Gemini模型在软件工程基准测试SWE-Bench上取得了显著进步,该基准评估AI处理真实世界编码任务的能力,如修复bug和生成代码。根据谷歌DeepMind在2023年12月的官方公告,Gemini 1.0系列包括Gemini Pro,在多模态任务中表现出色,而 ...
这项由Scale AI公司的邓翔、杰夫·达等十多位研究人员共同完成的研究发表于2025年9月,论文编号为arXiv:2509.16941v1。有兴趣深入了解的读者可以通过该编号查询完整论文。 在人工智能快速发展的今天,我们经常听到AI编程助手能够帮助程序员写代码、修复bug。
据悉,最新发布的SWE-Bench Pro基准测试对全球顶尖AI编程能力进行了严格评估。该测试专为评估AI编程智能体而设计,直面真实 ...