Bench Tool - 搜索 News

给“氛围编程”系上安全带：阿里集团 AI 代码评审实践与 Benchmark 开源

前言本文将分享阿里集团在 AI 代码评审方向“历时一年半”、“数万亿 Token 真实场景打磨”的探索现状，以及我们联合南京大学研发效能实验室开源的、汇聚 80 多位资深工程师进行多轮交叉标注的业界首个多语言、具备存储库上下文感知的 ...

1 天

科研AI出了个狠角色：开源30B小模型，硬刚Gemini和Claude_Rubrics_推导_证据

大模型会写论文，但它真的懂科研吗？很多时候，AI只是在“扮演”科学家——引文献、列逻辑、排格式，看起来有模有样。但只要深究，会发现全是破绽：逻辑靠编，推导靠蒙，结论是否正确全看运气。就在最近，此前发布过 BabyVision多模态评测基准的 UniPat AI，甩出了一个硬核的开源项目： UniScientist。这个模型参数只有 30B，却可以实现“提出假设-收集证据-执行可复现的推导- ...

5 天

OpenAI GPT-5.4发布：编码超越前代，知识工作接近人类专家水平

IT之家 3 月 6 日消息，OpenAI 今日正式发布了 GPT-5.4 系列模型，包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本，以及面向复杂任务的 GPT-5.4 Pro 版本。这是 OpenAI ...

4 天

OpenAI突发GPT-5.4！首次原生操控电脑，AI真的开始替你干活了

OpenAI突发GPT-5.4！首次原生操控电脑，AI真的开始替你干活了,openai,gpt,智能体,工作流,调用 ...

腾讯网

GPT-5.4发布，百万上下文、最强全能模型

这次，OpenAI 把 GPT-5.2 的通用推理能力和 GPT-5.3-Codex 业界领先的编程能力合并到了一个模型里，同时在工具调用、电脑操控、办公文档处理等方面全面升级。 GPT-5.4 在 Codex 和 API 中实验性支持 100 万 ...

4 天

GPT-5.4 发布，OpenClaw 的能力要被替代？OpenAI 新模型会自己用电脑了 ...

今天，GPT-5.4 发布，那个熟悉的 OpenAI 又回来了。今天，GPT-5.4 发布，那个熟悉的 OpenAI 又回来了。 GPT-5.4 是一款新的前沿模型，把 OpenAI ...

5 天

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前 ...

在 ChatGPT 中，GPT-5.4 Thinking 新增“思考过程预览”功能，模型会在处理复杂查询时预先展示其推理思路，用户可在模型响应过程中实时调整方向，从而减少来回沟通，更快获得符合需求的结果。IT之家从官方获悉，该功能已在网页版和 Android 应用上线，iOS 版本即将推出。

5 天

OpenAI GPT-5.4 正式登场：原生支持计算机操作，编码能力超前代，专业 ...

1 天

2026年03月08日 06:04市场资讯

同一周 ChatGPT 因 OpenAI 签署五角大楼合同引发卸载量激增 295%，Claude 首次登顶美国 App Store 和 Google Play 双榜。OpenAI 在发布 GPT-5.3 Instant 仅一小时后就在 X 上预告「5.4 sooner than you Think」，两天后 GPT-5.4 果然落地。这种「一周三连发」的节奏在前沿模型竞赛中前所未见，6 至 12 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果