Diffuti0n - 搜索 News

从视觉出发统一多模态！颜水成团队最新研究：不再把图像编解码器 ...

首个 visual prior unified discrete diffusion model，用一套离散扩散框架同时打通文生图、图生文和VQA AI大模型，可能正在悄悄换基座。过去几年，整个行业最熟悉、也最成功的预训练范式，几乎都围绕同一个问题展开：预测下一个词。从GPT到后来的各种视觉语言模型 ...

搜狐

技术赋能创意——深圳出圈视觉科技如何定义AI视频制作新标准

当ChatGPT、Sora等生成式AI工具席卷全球，视频制作行业正经历一场前所未有的范式革命。在这场变革中，总部位于深圳的深圳出圈视觉科技，以其对技术与创意的深度融合，迅速崛起为华南地区颇具影响力的深圳AI视频制作公司。他们不仅将AI工具应用于降本增效 ...

7 小时

Suno 压力大了！腾讯联手清华发布 SongGeneration 2，音素错误率低至 8.55%

最令开发者振奋的是，腾讯此次展现了极大的开源诚意。拥有4B 参数的 SongGeneration-v2-large 模型已正式开源，支持中英等多语种生成。令人惊讶的是，它在配备 22GB 显存的消费级硬件上即可流畅运行，实现了本地化、私密化创作的可能。

36氪

杨立昆再联手谢赛宁，英伟达参投，新公司押注「LLM 之后」

投资方高度多元化，AMI 建立中美之后的欧洲新「第三极」。 3 月 10 日，APPSO 中文独家获悉，世界模型研究所/创业公司 AMI 已 ...

腾讯网

浙江大学与快手联手：让AI同时操控多台摄像机，拍出电影级多角度视频

A：SynCamMaster是由浙江大学、快手科技等机构联合开发的AI视频生成系统，它能够像电影导演一样同时操控多台虚拟摄像机，从不同角度生成完全同步的视频内容。用户只需输入文字描述和指定拍摄角度，就能获得多个角度完美协调的视频片段。

腾讯网

北京大学等知名高校联手打造：让AI也能“画”漫画的神奇技术

这项由北京大学、上海人工智能实验室、南洋理工大学以及字节跳动联合开展的研究发表于2025年3月的arXiv预印本平台，论文编号为arXiv:2412.07589v2。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次提出了"定制化漫画生成"这一全新概念，并开发出名为DiffSensei的创新框架。当我们翻开一本精彩的漫画时，总会 ...

6 小时on MSN

北大团队突破扩散模型后训练瓶颈，递归似然比优化器实现效率性能 ...

在人工智能视觉生成领域，扩散模型凭借其卓越的高保真数据生成能力，已成为图像合成、视频生成等跨模态任务的核心技术框架。然而，如何让预训练后的扩散模型高效适配具体应用场景，始终是制约技术落地的关键难题。近期，一项发表于国际顶级学术会议的研究提出创新解决方案，通过设计递归似然比优化器，为扩散模型后训练开辟了兼顾效率与性能的新路径。

新浪网

从Sora惊恐到即梦反杀，中国AI视频生成之路

马年春晚，《贺花神》美轮美奂的画面刷屏全网。紧随其后，支撑这场视觉奇观的Seedance 2.0模型开放API调用，价格一秒一块钱。时间倒回两年前，AI视频生成还是一个被认为“中国完全做不出来”的赛道。OpenAI的Sora在2024年初横空出世，一支“女生走在东京街头 ...

头部财经

北大团队提出新范式，递归似然比梯度优化器赋能扩散模型后训练

扩散模型通过递归去噪过程生成数据，其强大的表达能力依赖于海量数据预训练。但在实际应用中，需要通过后训练对模型进行精准对齐，以满足特定场景的质量要求或人类偏好。当前主流的后训练方法主要分为两类：基于强化学习（RL）的方法和基于截断反向传播（BP）的方法，但两者均存在显著缺陷。

科技行者 on MSN

NASK国家研究所：如何让AI图像生成器变得更安全? 一种名为“条件 ...

想象你有一支神奇的画笔，只要你说出想画什么，它就能立刻创作出精美的图像。这听起来很棒，但问题是，这支画笔有时会画出一些不合适的内容，比如暴力、色情或仇恨符号。这就是当今AI图像生成技术面临的最大挑战：如何既保持创作的神奇能力，又确保内容的安全性？

一些您可能无法访问的结果已被隐去。

显示无法访问的结果