计算所 x 上交大论文:只用双人数据,也能生成多人动画丨CVPR 2026
在视觉生成领域,从图像生成到视频生成,研究的核心问题正逐渐从“能否生成内容”转向“能否生成可控且结构正确的内容”。尤其是在人物动画生成任务中,研究人员不仅希望模型能够生成具有真实感的画面,还希望生成过程能够受到精确控制,例如通过输入人物图像与动作姿态序列,使模型自动生成连续的人物动画。在这一方向上,姿态驱动的人物图像动画已经取得了显著进展。然而,这些方法大多集中于单人物场景,当生成对象扩展到多人物时,问题的复杂度会显著增加。而在在多人物动画生成过程中,模型不仅需要保持每个人物外观的稳定性,还必须在动态过程中正确建立人物与动作之间的对应关系,并处理人物之间的空间交互。如果模型无法持续区分不同人物,生成结果就容易出现身份混淆、动作错位或空间关系不合理等问题。因此,如何在复杂互动过程中保持人物身份一致,并同时建模多人物之间的空间关系,已经成为多人物视频生成研究中的关键挑战。在这样的研究背景下,来自中国科学院计算技术研究所与上海交通大学等机构的研究团队提出了一种新的多人物动画生成框架,并发表了题为《MultiAnimate: Pose-Guide
来源: 雷锋网