作者 | 允毅连马斯克、Andrej Karpathy 都纷纷点赞,DeepSeek 和 Kimi 前后脚都盯上的 “残差连接”,到底是什么?最近,Kimi 放出一篇重磅新论文,瞄准一个过去十年几乎没人动过的 Transformer 底层根基:残差连接(Residual Connection)。残差连接由何恺明于 2015 年在 ResNet 论文中提出,此后便成为深度学习领域的标配。简单来说,可 ...
对大众来说,生成式AI时代的序幕始于2022年底OpenAI发布的ChatGPT。但其底层技术——即Transformer神经网络架构,则可追溯至谷歌2017年发表的开创性论文《Attention Is All You Need》。
微软大模型新架构,正式向Transformer发起挑战! 论文标题明晃晃地写道: Retentive Network(RetNet):大模型领域Transformer的继任者。 论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话: RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。 这些特性使这一基础架构,成为大语 ...
研究团队发现,VMamba这种基于状态空间模型的视觉编码器在多项任务中表现出色,特别是在需要精确定位图像中特定物体的任务上,它的表现甚至超过了规模更大的Transformer模型。这就像发现了一种新的烹饪工具,不仅使用起来更加高效,而且在某些菜系上的 ...
月之暗面创始人杨植麟在2026年英伟达GTC大会上的公开演讲,也从侧面印证了这套架构的价值:“要推动大模型智能上限持续突破,必须对优化器、注意力机制和残差连接等底层基石进行重构。” ...
一项新研究的作者认为,现有的大语言模型架构可能无法支撑实现人类级人工智能所需的问题解决能力。最新研究表明,当今最流行的人工智能工具在架构上的限制,可能会制约它们能够达到的智能上限。2月5日发表在预印本平台arXiv上的一项研究指出,现代大语言模型在其 ...
在2026年3月,石溪大学的研究团队发表了一项引人注目的前沿研究,论文编号为arXiv:2603.19209v1。这项研究为我们重新审视视觉语言模型的设计理念提供了全新视角。随着人工智能技术的迅猛发展,视觉语言模型逐渐成为了这一领域的明星技术,它们不仅能够理解图片,还能处理文字,甚至回答关于图像内容的复杂问题。这一技术的进步如同赋予计算机一双"慧眼",让它们不仅能看懂图像中的内容,还能用文字准确描 ...
【导读】炸裂!就在刚刚,一位MIT博士,在Transformer里造出个计算机。现在,模型一举洗刷「9.11与9.9哪个大」的耻辱,几秒内运行数百万步程序,世界最难数独准确率100%!大模型的能力边界,从此彻底改变。
人工智能领域迎来一项颠覆性突破:一位麻省理工学院博士成功在Transformer架构中嵌入完整计算机系统,使大语言模型(LLM)具备原生计算能力。这项突破性研究彻底改变了人们对LLM的认知,模型不再局限于概率预测文本,而是进化为能够执行复杂计算的数字计算机。 研究团队通过硬编码方式将WebAssembly(WASM)解释器完整嵌入Transformer权重,实现无需外部工具调用的纯内部计算。这种创 ...
凤凰网科技讯 3月20日,据路透社报道,在初代智能手机Fire ...
据路透社从四位知情人士处获悉,在放弃Fire Phone项目十余年后,亚马逊正秘密重启智能手机业务,内部代号为"Transformer"的新项目正在紧锣密鼓推进中。这款设备将深度整合Alexa语音助手及其生态服务,试图在AI驱动的移动终端领域开辟新战场。