数学通常被认为是衡量AI进步的理想领域。数学的逐步逻辑推理过程易于追踪,其确定的可自动验证答案排除了任何人为或主观因素。但AI系统正以如此快的速度改进,以至于数学基准测试都难以跟上。 早在2024年11月,非营利研究机构Epoch ...
如果说人工智能是当今科技发展的明珠,那么大语言模型就是这颗明珠上最璀璨的光芒。来自阿里巴巴集团的研究团队最近发布了他们的最新成果——通义千问2.5技术报告,这项研究于2025年1月发表,论文编号为arXiv:2412.15115v2。这不仅仅是一次技 ...
当我们面对复杂的数学题时,大脑往往会自然地分工合作:先构思答案,再检查错误,最后优化完善。而现在,牛津大学联合合作AI基金会、阿布扎比的MBZUAI以及斯坦福大学的研究团队,成功让人工智能也学会了这种"团队作战"的思维方式。这项突破性研究发表于 ...
Phi-4只有140亿个参数,相当于其他顶级AI模型体积的十分之一左右,但在数学推理、科学问答和编程能力方面,它却能与那些庞大的竞争对手平分秋色,甚至在某些领域表现更出色。这就像一位身材娇小但技艺精湛的工匠,能够完成许多体格健壮但技能平庸的工人无法胜任的精细工作。
这项由清华大学联合加州大学圣地亚哥分校(UCSD)等多所顶尖高校共同完成的研究发表于2024年12月的arXiv预印本平台,论文编号为arXiv:2412.16145v2。有兴趣深入了解的读者可以通过该编号查询完整论文。 当我们看到ChatGPT解数学题时,有没有想过它是怎么一步步推理的?就像学霸做题一样,需要先理解题意,然后列出解题步骤,最后得出答案。但现在的AI训练方法就像只告诉学生"这道题答 ...
其中,字节跳动旗下 Seed 2.0 的表现最为亮眼。该模型为首次亮相 LMArena 榜单,便成功跻身综合排行榜全球前十,位列本次登榜国产模型首位。同期密集发布的多款国产旗舰大模型亦同步登榜,GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列榜单第 16 至 19 位。国产大模型第一梯队正以前所未有的集群姿态,集体冲击全球大模型技术最高水平。
【新智元导读】Google DeepMind最新AI智能体Aletheia在FirstProof挑战赛中,独立攻克了6道世界级数学难题,实现了从竞赛水平到PhD科研级的质变。人类数学研究的「手工时代」或许正步入倒计时。