Unity Deepseek Avatar

R1一周年，DeepSeek Model 1悄然现身

2025 年 1 月 20 日，DeepSeek（深度求索）正式发布了 DeepSeek-R1 模型，并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中，DeepSeek-R1 也是该平台上获赞最多的模型。如今，刚过一年时间，DeepSeek 的新模型又在 GitHub 悄然现身。

爱范儿

DeepSeek R1发布一年了，不卷功能、不融资、不着急，凭什么「硬控」硅谷

使用微信扫码将网页分享到微信「服务器繁忙，请稍后再试。」一年前，我也是被这句话硬控的用户之一。 DeepSeek 带着 R1 在一年前的今天（2025.1.20）横空出世，一出场就吸引了全球的目光。那时候为了能顺畅用上 DeepSeek，我翻遍了自部署教程，也下载过不少 ...

36氪

DeepSeek 新论文或「泄密」V4 杀手锏：一招突破瓶颈，居然把 CPU 当 GPU ...

前几天，DeepSeek 被曝出在春节前后发布新一代旗舰模型 DeepSeek-V4。据称 V4 在代码任务上的表现已超越 Anthropic 的 Claude 系列以及 OpenAI 的 GPT 系列。虽然官方仍保持神秘，但 DeepSeek 近期密集发布的论文或许已经初现端倪。就在昨晚，DeepSeek 联合北京大学发布了 ...

36氪

刚刚，梁文锋署名开源「记忆」模块，DeepSeek V4更细节了

就在十几个小时前，DeepSeek 发布了一篇新论文，主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》，与北京大学合作完成，作者中同样有梁文锋署名。简单总结一波这项新研究要解决的问题：目前大语言模型主要通过混合专家（MoE）来 ...

新浪网

DeepSeek更新后被吐槽变冷变傻：比20年前的青春伤感文学还让人尴尬 ...

2月11日，深度求索（DeepSeek）悄悄地对其旗舰模型进行灰度测试。据科创板日报报道，多名用户反馈，DeepSeek在网页端和APP端进行了版本更新，支持最高1M（百万）Token的上下文长度。而去年8月发布的DeepSeekV3.1上下文长度拓展至128K。记者实测中发现，DeepSeek在 ...

来自MSN

DeepSeek，最新发布!

DeepSeek发布新论文，梁文锋参与署名。 1月1日消息，DeepSeek发布了一篇新论文，提出了一种名为mHC（流形约束超连接）的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其显著的性能增益。这篇论文的第一作者有三位：Zhenda Xie ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果