Bench Tool - 搜索 News

科研AI出了个狠角色：开源30B小模型，硬刚Gemini和Claude

当前数据集仍在持续扩展中，已包含超过4700个研究级实例，每个实例附有20+条Rubric项，覆盖 50+学科和400+研究方向。专家标注平均每条样本投入1-2小时。学科覆盖从量子物理和有机化学、到社会文化人类学和计算语言学均有涉及。

给“氛围编程”系上安全带：阿里集团 AI 代码评审实践与 Benchmark 开源

前言本文将分享阿里集团在 AI 代码评审方向“历时一年半”、“数万亿 Token 真实场景打磨”的探索现状，以及我们联合南京大学研发效能实验室开源的、汇聚 80 多位资深工程师进行多轮交叉标注的业界首个多语言、具备存储库上下文感知的 ...

5 天

OpenAI GPT-5.4发布：编码超越前代，知识工作接近人类专家水平

IT之家 3 月 6 日消息，OpenAI 今日正式发布了 GPT-5.4 系列模型，包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本，以及面向复杂任务的 GPT-5.4 Pro 版本。这是 OpenAI ...

5 天

OpenAI突发GPT-5.4！首次原生操控电脑，AI真的开始替你干活了

OpenAI突发GPT-5.4！首次原生操控电脑，AI真的开始替你干活了,openai,gpt,智能体,工作流,调用 ...

华尔街见闻 on MSN

OpenAI发布最强专业模型GPT-5.4，自动操作电脑，插件支持AI玩转Excel和金融分析

OpenAI首次在通用模型中内置原生电脑操控功能。GPT-5.4能直接操作软件、浏览网页、控制鼠标和键盘完成任务，可与电子表格、金融分析工具等企业应用深度整合；桌面导航能力得分超越人类基准水平，网络搜索测试得分创新高，职业知识测试得分达到或超越专业人士；引入工具搜索机制大幅降低token消耗。GPT-5.4分擅长复杂推理的Thinking和高性能的Pro两版本，上下文窗口最高100万token，定 ...

5 天

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前 ...

IT之家3 月 6 日消息，OpenAI 今日正式发布了 GPT-5.4 系列模型，包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本，以及面向复杂任务的 GPT-5.4 Pro 版本。这是 OpenAI 首次将前沿推理、编码和智能体能力整合至单一模型中，旨在提升专业工作的效率和准确性。在 ChatGPT 中，GPT-5.4 Thinking 新增“思考过程预览” ...

4 天

GPT-5.4 发布，OpenClaw 的能力要被替代？OpenAI 新模型会自己用电脑了 ...

今天，GPT-5.4 发布，那个熟悉的 OpenAI 又回来了。今天，GPT-5.4 发布，那个熟悉的 OpenAI 又回来了。 GPT-5.4 是一款新的前沿模型，把 OpenAI ...

5 天

OpenAI GPT-5.4 正式登场：原生支持计算机操作，编码能力超前代，专业 ...

2 天

2026年03月08日 06:04市场资讯

同一周 ChatGPT 因 OpenAI 签署五角大楼合同引发卸载量激增 295%，Claude 首次登顶美国 App Store 和 Google Play 双榜。OpenAI 在发布 GPT-5.3 Instant 仅一小时后就在 X 上预告「5.4 sooner than you Think」，两天后 GPT-5.4 果然落地。这种「一周三连发」的节奏在前沿模型竞赛中前所未见，6 至 12 ...

头部财经

GPT-5.4：OpenAI做了个Kimi K2.5 +MiniMax M2.5？

为了更好的追赶Claude，OpenAI带来了能力“N合1”的统一模型GPT-5.4，而看完这个模型的各种介绍和能力展示，你会发现它满满都是Kimi K2.5 和MiniMax M2.5这两个在agent上卷到疯的开源模型的影子。 3 月 5 日，OpenAI 正式发布 GPT-5.4。和过去那种“模型更强一点”的更新不同，这次发布的重点非常明确：把 AI 从聊天助手，进一步推向真正能交付专业工作 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果