Python Cuda - 搜索 News

FlagOS 核心算子库 FlagGems 全量支持 DeepSeek V4 算子，多芯片适配与多项 ...

DeepSeek V4 模型以 CUDA + Tilelang 组合方式使用了数十个算子。为了能在多种 AI 芯片上运行 DeepSeek V4，众智 FlagOS 采用 Triton/Triton-TLE 重写了全部新增算子，并基于 ...

虎嗅网

DeepSeek-V4发布，黄仁勋的担忧成真了

“如果顶尖的AI模型被优化在华为芯片上运行，对美国而言将是‘可怕的后果’。” 这是英伟达CEO黄仁勋近期在一档播客节目中发出的警告。让他发出警告的对象，是即将发布新模型的中国AI公司DeepSeek。让黄仁勋警惕的，并不是某个具体的模型能力，而是另一件事——综合多家权威媒体报道：DeepSeek-V4模型在设计之初便优先围绕华为昇腾AI体系进行适配。一旦成功绕过英伟达的CUDA体系，DeepS ...

腾讯网

为什么 AI 框架偏爱 Python？底层逻辑一次讲清

如果直接用 C++ 开发，实验成本会变得极高。研究人员需要在一周内尝试几十种架构，频繁的编译等待会耗尽精力。在科研阶段，改动一行代码并立即看到结果的灵活性，比那几毫秒的执行差距更重要。AI 领域的竞争本质上是在比拼人类的迭代速度。

GitHub

QQ767172261/YOLOv5---yolov5---cuda114-GPU-

智慧训练工具懒人精灵yolov5免环境训练工具，可一键导出懒人精灵调用例子，导出后直接导入懒人，使用懒人精灵官方代码即可直接调用，小白也能轻松上手，内部封装cuda114使用GPU训练附带使用教程支持懒人精灵Yolo调用，无需搭建Python环境和安装CUDA，下载 ...

雷峰网

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

FlagGems 作为全球最大的 Triton 单一算子库，已拥有超过400 个大模型常用算子，并已正式进入 PyTorch 基金会生态合作项目。在 40 个主流模型上，推理任务算子覆盖度达到 90%~100%，完整支持 ...

新浪网

AI写CUDA算子国产芯片不行？上交方法直线拉升，DeepSeek也适用

GPT-5.2 写 CUDA 算子，正确率 92%。同样的模型，给华为 Ascend NPU 写算子，正确率只有 4%。不是模型变笨了，是它压根没见过这类代码。公开数据几乎为零，专家寥寥无几，编译报错你还看不懂 —— 这就是 "新硬件冷启动" 的真实处境。上海交大团队的 EvoKernel 不训 ...

2 天

沉默了五个月的DeepSeek，在被期待什么？

4月初，The Information报道称，DeepSeek V4将在4月下旬发布，且会率先支持华为新一代AI芯片昇腾950PR。4月18日，The ...

1 天

NVIDIA研究团队打造"加速大模型推理"的统一标准

这项由NVIDIA研究团队主导完成的研究成果，以预印本形式发布于2026年2月，论文编号为arXiv:2604.09557v1，收录于计算机分布式系统领域（cs.DC）。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。每次你向ChatGPT或者其他大型语言模型提问，背后发生的事情比你想象中复杂得多。模型不是一次性"想出"完整答案然后发给你的，而是像打字员一样，一个字一个字地生成。