投资方高度多元化,AMI 建立中美之后的欧洲新「第三极」。 3 月 10 日,APPSO 中文独家获悉,世界模型研究所/创业公司 AMI 已 ...
最令开发者振奋的是,腾讯此次展现了极大的开源诚意。拥有4B 参数的 SongGeneration-v2-large 模型已正式开源,支持中英等多语种生成。令人惊讶的是,它在配备 22GB 显存 的消费级硬件上即可流畅运行,实现了本地化、私密化创作的可能。
这项由北京大学、上海人工智能实验室、南洋理工大学以及字节跳动联合开展的研究发表于2025年3月的arXiv预印本平台,论文编号为arXiv:2412.07589v2。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次提出了"定制化漫画生成"这一全新概念,并开发出名为DiffSensei的创新框架。当我们翻开一本精彩的漫画时,总会 ...
在人工智能视觉生成领域,扩散模型凭借其卓越的高保真数据生成能力,已成为图像合成、视频生成等跨模态任务的核心技术框架。然而,如何让预训练后的扩散模型高效适配具体应用场景,始终是制约技术落地的关键难题。近期,一项发表于国际顶级学术会议的研究提出创新解决方案,通过设计递归似然比优化器,为扩散模型后训练开辟了兼顾效率与性能的新路径。
阿里的 Qwen 系列、字节的 Seedream 系列,以及海外的开源模型如 Stable Diffusion 生态,都已在开发者社区中积累了一定影响力。小红书的 FireRed 想要成为图像编辑领域的“武器库”,不仅需要技术过硬,还需要在社区推广、开发者生态建设上持续投入。
想象你有一支神奇的画笔,只要你说出想画什么,它就能立刻创作出精美的图像。这听起来很棒,但问题是,这支画笔有时会画出一些不合适的内容,比如暴力、色情或仇恨符号。这就是当今AI图像生成技术面临的最大挑战:如何既保持创作的神奇能力,又确保内容的安全性?
首个基于 Diffusion Transformer(DiT)架构量身打造的图像精确区域编辑框架。 研究团队摒弃了传统的“逐点追踪”思路,创新性地使用“区域仿射监督”范式,充分释放了 FLUX.1 这类先进 DiT 模型的强大先验能力。 针对以往方法在复杂场景下的失真问题,该方法建立 ...
扩散模型在初始阶段只能生成模糊的卧室图像,但随着优化不断推进,原本只能生成卧室图像的模型逐渐摆脱了低质量结果和「卧室结构」偏好,最终恢复出清晰且高质量的人脸图像。
这项由浙江大学、快手科技、清华大学和香港中文大学联合完成的研究发表于2024年12月,论文编号为arXiv:2412.07760v1。有兴趣深入了解的读者可以通过该编号查询完整论文。 当你看一部精彩的电影时,导演是如何让多台摄像机完美协调,从不同角度同时拍摄同一个 ...