中山大学梁小丹团队论文:让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026
过去两年,视频生成模型的发展呈现出一个非常明显的趋势:视觉质量在快速逼近真实世界。从最初的模糊片段,到如今可以生成具有复杂场景、多主体交互甚至长时序叙事的视频,模型在纹理、光影和语义一致性方面已经取得了长足进步。一些系统甚至被称为通用世界模型的雏形,试图通过数据驱动的方式重建现实世界的运行规律。但随着分辨率和时长的提升,一个更深层的问题开始暴露出来:模型在视觉上越来越真实,却在物理上仍然不可信。也就是说,模型擅长生成看起来像真实世界的画面,却并不真正理解现实世界是如何运作的。这种差距在动态场景中尤为明显。当场景涉及接触、受力、流动或能量传递时,模型往往无法维持一致的物理逻辑。例如,在一些生成视频中,可以观察到物体在移动过程中缺乏连续的动力来源,运动像被“直接插值”出来;两个物体发生交互时,接触关系模糊甚至消失,表现为轻微重叠或延迟响应;再比如布料、烟雾或水流的变化往往只遵循外观模式,而不是环境约束,导致整体行为缺乏稳定性。这些问题的本质并不是数据不足,而是模型缺少对物理因果关系和空间约束的建模能力。如何让视频生成模型从“视觉拟合”走向“物
来源: 雷锋网