sparse - 搜索 News

R1一周年，DeepSeek Model 1悄然现身

2025 年 1 月 20 日，DeepSeek（深度求索）正式发布了 DeepSeek-R1 模型，并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中，DeepSeek-R1 也是该平台上获赞最多的模型。如今，刚过一年时间，DeepSeek 的新模型又在 GitHub 悄然现身。

IT之家

DeepSeek-V3.2-Exp 模型正式发布并开源，API 大幅降价

IT之家9 月 29 日消息，DeepSeek 今日正式发布 DeepSeek-V3.2-Exp 模型，这是一个实验性（Experimental）的版本。作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention（IT之家注：一种稀疏注意力机制），针对长文本的训练和推理效率 ...

搜狐

安徽新华学院的稀疏目标检测新突破：一文看懂《Pattern Recognition ...

近日，安徽新华学院在稀疏目标检测技术研究领域取得了重要进展，其王琦进教授团队的研究论文“Apply prior feature integration to sparse object detectors”被国际顶级期刊《Pattern Recognition》收录。这一成就标志着该校在人工智能学科建设上的又一重要里程碑，特别是在 ...

腾讯网

AI自己「长出」了类似大脑的「脑叶」？新研究揭示LLM特征的惊人 ...

大型语言模型在学习概念时竟然会形成令人惊讶的几何结构，比如代码和数学特征会形成一个「叶（lobe）」，类似于我们在做磁共振功能成像时看到的大脑功能性脑叶。这说明什么呢？论文通讯作者、MIT 物理学教授 Max Tegmark 的推文。值得注意的是，Max Tegmark ...

GitHub

Jasen-Zhou/sparse-attention

其实并不是稀疏的，但比较早的注意力魔改，注意力结合RNN，下文可以获取上文信息，但上文无法获取下文信息。上下文交互不完全。 MNLI句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。

Microsoft

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

编者按：激活稀疏性是解决大语言模型（LLMs）在推理阶段出现的计算成本高、内存占用大等问题的有效方法，可以有效减少激活张量中激活元素的数量。然而该方法无法实现 LLMs 激活的完全稀疏性，从而限制了推理阶段的效率提升。对此，微软亚洲研究院提出 Q ...

央视网

吉林市警方通报北山公园伤人案件：犯罪嫌疑人刺伤五人，当日被抓获

央视网消息：6月11日晚，吉林市公安局船营分局发布警情通报：6月10日11时49分，我分局接市公安局110派警指令称，吉林市船营区北山公园发生伤人案件。属地派出所民警迅速赶到现场，第一时间将伤者送医救治，迅速抓捕犯罪嫌疑人。经查，崔某某（男，55岁 ...

IT之家

思特威推出首颗 5000 万像素 1/1.28 英寸手机图像传感器 SC580XS

IT之家1 月 11 日消息，国产 CMOS 厂商思特威 SmartSens 今日宣布推出其首颗 5000 万像素 1/1.28 英寸图像传感器新品 —— SC580XS。此款新品是思特威继成功量产第一颗 22nm HKMG Stack 工艺的 5000 万像素 1/1.56 英寸产品 SC550XS 之后，在同一工艺平台打造的升级产品。作为 1 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果