首个 visual prior unified discrete diffusion model,用一套离散扩散框架同时打通文生图、图生文和VQA AI大模型,可能正在悄悄换基座。 过去几年,整个行业最熟悉、也最成功的预训练范式,几乎都围绕同一个问题展开:预测下一个词。 从GPT到后来的各种视觉语言模型 ...
当ChatGPT、Sora等生成式AI工具席卷全球,视频制作行业正经历一场前所未有的范式革命。在这场变革中,总部位于深圳的深圳出圈视觉科技,以其对技术与创意的深度融合,迅速崛起为华南地区颇具影响力的深圳AI视频制作公司。他们不仅将AI工具应用于降本增效 ...
最令开发者振奋的是,腾讯此次展现了极大的开源诚意。拥有4B 参数的 SongGeneration-v2-large 模型已正式开源,支持中英等多语种生成。令人惊讶的是,它在配备 22GB 显存 的消费级硬件上即可流畅运行,实现了本地化、私密化创作的可能。
投资方高度多元化,AMI 建立中美之后的欧洲新「第三极」。 3 月 10 日,APPSO 中文独家获悉,世界模型研究所/创业公司 AMI 已 ...
A:SynCamMaster是由浙江大学、快手科技等机构联合开发的AI视频生成系统,它能够像电影导演一样同时操控多台虚拟摄像机,从不同角度生成完全同步的视频内容。用户只需输入文字描述和指定拍摄角度,就能获得多个角度完美协调的视频片段。
这项由北京大学、上海人工智能实验室、南洋理工大学以及字节跳动联合开展的研究发表于2025年3月的arXiv预印本平台,论文编号为arXiv:2412.07589v2。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次提出了"定制化漫画生成"这一全新概念,并开发出名为DiffSensei的创新框架。当我们翻开一本精彩的漫画时,总会 ...
6 小时on MSN
北大团队突破扩散模型后训练瓶颈,递归似然比优化器实现效率性能 ...
在人工智能视觉生成领域,扩散模型凭借其卓越的高保真数据生成能力,已成为图像合成、视频生成等跨模态任务的核心技术框架。然而,如何让预训练后的扩散模型高效适配具体应用场景,始终是制约技术落地的关键难题。近期,一项发表于国际顶级学术会议的研究提出创新解决方案,通过设计递归似然比优化器,为扩散模型后训练开辟了兼顾效率与性能的新路径。
马年春晚,《贺花神》美轮美奂的画面刷屏全网。紧随其后,支撑这场视觉奇观的Seedance 2.0模型开放API调用,价格一秒一块钱。 时间倒回两年前,AI视频生成还是一个被认为“中国完全做不出来”的赛道。OpenAI的Sora在2024年初横空出世,一支“女生走在东京街头 ...
扩散模型通过递归去噪过程生成数据,其强大的表达能力依赖于海量数据预训练。但在实际应用中,需要通过后训练对模型进行精准对齐,以满足特定场景的质量要求或人类偏好。当前主流的后训练方法主要分为两类:基于强化学习(RL)的方法和基于截断反向传播(BP)的方法,但两者均存在显著缺陷。
科技行者 on MSN
NASK国家研究所:如何让AI图像生成器变得更安全? 一种名为“条件 ...
想象你有一支神奇的画笔,只要你说出想画什么,它就能立刻创作出精美的图像。这听起来很棒,但问题是,这支画笔有时会画出一些不合适的内容,比如暴力、色情或仇恨符号。这就是当今AI图像生成技术面临的最大挑战:如何既保持创作的神奇能力,又确保内容的安全性?
一些您可能无法访问的结果已被隐去。
显示无法访问的结果