数学被视为衡量AI进展的理想领域,但AI系统改进速度如此之快,以至于数学基准测试难以跟上。Frontier Math基准在2024年11月发布时,顶尖AI模型只能解决不到2%的问题,而如今最佳公开AI模型已能解决超过40%的问题。谷歌DeepMind的Aletheia系统甚至实现了可发表的博士级研究成果。为应对这一挑战,数学家们提出了First Proof挑战和Open Problems等更严峻的 ...