Transformer 2 - 搜索 News

不用任何人类语言训练，大模型反而更强了？

如果有一天，大模型不再依赖人类语言训练，会发生什么？过去几年，大模型能力的飞跃几乎都建立在一个前提之上：海量文本数据。互联网、书籍、代码、论文，几乎所有人类留下的语言痕迹，都被当作训练数据。但随着高质量文本逐渐逼近枯竭，研究者开始 ...

显存暴降92%！哈工大为线性注意力开辟了新道路

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！2017年，Transformer模型横空出世，在自然语言处理领域掀起了AI革命。此后，视觉领域也迎来了Transformer的浪潮，从图像分类到目标检测，从语义分割到图像生成，注意 ...

23 小时

800亿晶体管核弹GPU架构深入解读，又是“拼装货”？

NVIDIA在3月23日公布基于全新Hopper架构的GPU H100，其多种精度下的AI性能达到上一代A100的3~6倍。NVIDIA如何做到如此大幅的性能升级？Hopper架构有何玄机？千芯科技董事长陈巍博士对此加以解读。

快科技

新游登场画质拉满华硕RTX50系显卡解锁高帧游戏体验

DLSS 4.5动态多帧生成将于3月31日推出，该技术能在游戏过程中智能调整帧生成倍数来达到用户期望的目标帧率，在帧率、画质与响应速度之间取得最佳平衡～与此同时，20款全新DLSS 4.5与路径追踪游戏即将发布，并发布为《红色沙漠》与《死亡搁浅 2 ...

腾讯网

省下1.25倍算力！Kimi这篇论文，可能改写所有大模型的训练方式

但现代大模型动辄上百层，训练时还会把模型切成很多份分布到不同的机器上（叫流水线并行），每台机器都要维护所有层的输出，机器之间还要传来传去——内存压力和通信压力都会暴增。

20 小时

生成式人工智能驱动的网络钓鱼攻击演进与防御范式重构

传统的钓鱼检测主要针对静态邮件内容。然而，AI赋能的钓鱼攻击越来越多地采用交互式模式。攻击者部署由LLM驱动的聊天机器人，通过即时通讯工具或回复邮件与受害者进行多轮对话。在这种模式下，恶意意图并非在第一条消息中显露，而是在对话过程中逐步诱导受害者透露 ...

3 小时

Evo 2模型从“读懂片段”进化到“设计生命” 规模最大生物学AI实现 ...

国际顶级学术期刊《自然》近期正式发表了一项汇聚人工智能（AI）与生命科学顶尖智慧的里程碑式成果。由美国Arc研究所、英伟达公司，联合斯坦福大学、加州大学伯克利分校及旧金山分校等机构的研究团队，共同发布了迄今为止规模最大、能力最强的生物学基础模型——Evo 2。这个基于超过十万个物种、9.3万亿个核苷酸训练而成的AI模型，不仅能以前所未有的精度解读从猛犸象到细菌的遗传密码，更具备了主动“阅读”“书 ...

环球网科技 on MSN

Evo 2模型从“读懂片段”进化到“设计生命”

国际顶级学术期刊《自然》近期正式发表了一项汇聚人工智能（AI）与生命科学顶尖智慧的里程碑式成果。

科技行者 on MSN

让AI探测器看得见“不确定”：奔驰团队如何让自动驾驶汽车变得更谨慎

在斯图加特的奔驰研究中心，一群科学家正在解决一个关键问题：如何让人工智能承认自己的不确定性。这项由梅赛德斯-奔驰公司联合斯图加特大学和纽伦堡-埃尔兰根大学共同完成的研究于2026年3月发表在arXiv预印本平台，论文编号为2603.01847v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

6 小时

DeepSeek V4迟迟不发，中国开源王者为何越来越慢？

与OpenAI、Anthropic不同，DeepSeek背负整个开源社区的巨大预期，任何一次平庸的迭代都会被视为“走下神坛”。一旦不够强，口碑反噬更猛；一旦太激进，推理成本和部署门槛会劝退开发者；一旦权重、推理框架、工具链配套不到位，生态迅速失望。

新浪网

广州00后女学霸，又融资14亿

近日，一则消息在全球创投圈炸开了锅——AI初创公司Axiom宣布完成2亿美元A轮融资，由知名风投Menlo Ventures领投，老股东悉数跟投。此轮融资过后，这家成立仅一年多的公司，估值飙升至16亿美元（约合人民币110亿元），毫无悬念地闯入了“独角兽”俱乐部。

头部财经

报道称DeepSeek V4 与腾讯姚顺雨混元模型 4 月同步发布

据《白鲸实验室》独家消息，备受期待的 DeepSeek V4 与姚顺雨新混元模型将于 2026 年 4 月正式发布。DeepSeek V4 是由梁文锋主导研发的多模态大模型，经过长期的打磨与提升，预计在代码能力和长期记忆方面都有显著进展。这一模型的发布与 DeepSeek 团队近年来的研究方向相符，尤其是在视觉内容处理和人工智能搜索能力上。梁文锋的研究集中于 “条件记忆” 机制的探讨，他在 20 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果