2025 年 1 月 20 日,DeepSeek(深度求索)正式发布了 DeepSeek-R1 模型,并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1 也是该平台上获赞最多的模型。 如今,刚过一年时间,DeepSeek 的新模型又在 GitHub 悄然现身。
IT之家9 月 29 日消息,DeepSeek 今日正式发布 DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。 作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(IT之家注:一种稀疏注意力机制),针对长文本的训练和推理效率 ...
近日,安徽新华学院在稀疏目标检测技术研究领域取得了重要进展,其王琦进教授团队的研究论文“Apply prior feature integration to sparse object detectors”被国际顶级期刊《Pattern Recognition》收录。这一成就标志着该校在人工智能学科建设上的又一重要里程碑,特别是在 ...
大型语言模型在学习概念时竟然会形成令人惊讶的几何结构,比如代码和数学特征会形成一个「叶(lobe)」,类似于我们在做磁共振功能成像时看到的大脑功能性脑叶。这说明什么呢? 论文通讯作者、MIT 物理学教授 Max Tegmark 的推文。值得注意的是,Max Tegmark ...
其实并不是稀疏的,但比较早的注意力魔改,注意力结合RNN,下文可以获取上文信息,但上文无法获取下文信息。上下文交互不完全。 MNLI句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。
编者按:激活稀疏性是解决大语言模型(LLMs)在推理阶段出现的计算成本高、内存占用大等问题的有效方法,可以有效减少激活张量中激活元素的数量。然而该方法无法实现 LLMs 激活的完全稀疏性,从而限制了推理阶段的效率提升。 对此,微软亚洲研究院提出 Q ...
央视网消息:6月11日晚,吉林市公安局船营分局发布警情通报:6月10日11时49分,我分局接市公安局110派警指令称,吉林市船营区北山公园发生伤人案件。属地派出所民警迅速赶到现场,第一时间将伤者送医救治,迅速抓捕犯罪嫌疑人。经查,崔某某(男,55岁 ...
IT之家1 月 11 日消息,国产 CMOS 厂商思特威 SmartSens 今日宣布推出其首颗 5000 万像素 1/1.28 英寸图像传感器新品 —— SC580XS。 此款新品是思特威继成功量产第一颗 22nm HKMG Stack 工艺的 5000 万像素 1/1.56 英寸产品 SC550XS 之后,在同一工艺平台打造的升级产品。作为 1 ...