这项由韩国KAIST和DeepBrain AI公司联合开展的研究发表于2025年,论文编号为arXiv:2412.01064v5,感兴趣的读者可以通过该编号查询完整论文。研究团队开发了一种名为FLOAT的全新模型,能够仅凭一张静态人物照片和一段音频,就生成出栩栩如生的说话人像视频。 你有没有想过,如果能让老照片里的祖父母开口说话,或者让一张普通的自拍照变成生动的视频通话会是什么感觉?这个听起来像科 ...