Math Q - 搜索 News

6 天

AI在数学考试中的表现超越了科学家出题速度

数学通常被认为是衡量AI进步的理想领域。数学的逐步逻辑推理过程易于追踪，其确定的可自动验证答案排除了任何人为或主观因素。但AI系统正以如此快的速度改进，以至于数学基准测试都难以跟上。早在2024年11月，非营利研究机构Epoch ...

通义千问2.5大模型再升级：阿里巴巴18万亿字符训练打造的中英文AI助手

如果说人工智能是当今科技发展的明珠，那么大语言模型就是这颗明珠上最璀璨的光芒。来自阿里巴巴集团的研究团队最近发布了他们的最新成果——通义千问2.5技术报告，这项研究于2025年1月发表，论文编号为arXiv:2412.15115v2。这不仅仅是一次技 ...

腾讯网

牛津大学联手多机构：让三个AI协同工作，数学推理能力飙升15.66%

当我们面对复杂的数学题时，大脑往往会自然地分工合作：先构思答案，再检查错误，最后优化完善。而现在，牛津大学联合合作AI基金会、阿布扎比的MBZUAI以及斯坦福大学的研究团队，成功让人工智能也学会了这种"团队作战"的思维方式。这项突破性研究发表于 ...

科技行者 on MSN

微软研究院推出Phi-4：合成数据驱动的14亿参数推理专家，超越巨型 ...

Phi-4只有140亿个参数，相当于其他顶级AI模型体积的十分之一左右，但在数学推理、科学问答和编程能力方面，它却能与那些庞大的竞争对手平分秋色，甚至在某些领域表现更出色。这就像一位身材娇小但技艺精湛的工匠，能够完成许多体格健壮但技能平庸的工人无法胜任的精细工作。

2 天

清华联合UCSD团队新突破：让AI像学霸一样推理思考的OREO训练法

这项由清华大学联合加州大学圣地亚哥分校（UCSD）等多所顶尖高校共同完成的研究发表于2024年12月的arXiv预印本平台，论文编号为arXiv:2412.16145v2。有兴趣深入了解的读者可以通过该编号查询完整论文。当我们看到ChatGPT解数学题时，有没有想过它是怎么一步步推理的？就像学霸做题一样，需要先理解题意，然后列出解题步骤，最后得出答案。但现在的AI训练方法就像只告诉学生"这道题答 ...

雷峰网

全球大模型竞技场：多款国产模型上榜，Seed 2.0排名领先

其中，字节跳动旗下 Seed 2.0 的表现最为亮眼。该模型为首次亮相 LMArena 榜单，便成功跻身综合排行榜全球前十，位列本次登榜国产模型首位。同期密集发布的多款国产旗舰大模型亦同步登榜，GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列榜单第 16 至 19 位。国产大模型第一梯队正以前所未有的集群姿态，集体冲击全球大模型技术最高水平。

8 天

谷歌AI攻克6道世界级难题，比IMO金牌更震撼！陶哲轩指明新玩法

【新智元导读】Google DeepMind最新AI智能体Aletheia在FirstProof挑战赛中，独立攻克了6道世界级数学难题，实现了从竞赛水平到PhD科研级的质变。人类数学研究的「手工时代」或许正步入倒计时。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果