中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

过去两年，视频生成模型的发展呈现出一个非常明显的趋势：视觉质量在快速逼近真实世界。从最初的模糊片段，到如今可以生成具有复杂场景、多主体交互甚至长时序叙事的视频，模型在纹理、光影和语义一致性方面已经取得了长足进步。一些系统甚至被称为通用世界模型的雏形，试图通过数据驱动的方式重建现实世界的运行规律。但随着分辨率和时长的提升，一个更深层的问题开始暴露出来：模型在视觉上越来越真实，却在物理上仍然不可信。也就是说，模型擅长生成看起来像真实世界的画面，却并不真正理解现实世界是如何运作的。这种差距在动态场景中尤为明显。当场景涉及接触、受力、流动或能量传递时，模型往往无法维持一致的物理逻辑。例如，在一些生成视频中，可以观察到物体在移动过程中缺乏连续的动力来源，运动像被“直接插值”出来；两个物体发生交互时，接触关系模糊甚至消失，表现为轻微重叠或延迟响应；再比如布料、烟雾或水流的变化往往只遵循外观模式，而不是环境约束，导致整体行为缺乏稳定性。这些问题的本质并不是数据不足，而是模型缺少对物理因果关系和空间约束的建模能力。如何让视频生成模型从“视觉拟合”走向“物

来源: 雷锋网

聚合资讯

此资讯为聚合内容，请访问原始来源阅读完整内容

阅读原始内容

来源：雷锋网

上海AI实验室发布“AGI4S珠穆朗玛计划”，构建中国科学智能创新中枢，邀全球科研力量共同定义未来

智象未来携手诺亦腾机器人，共创具身智能数据新范式

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

聚合资讯

相关资讯

宝马集团 2026 年一季度全球交付 56.57 万辆汽车，同比下降 3.5%

OPPO Pad Mini 小平板核心亮点公布：2.5K 144Hz OLED 屏、8000mAh 电池，4 月 21 日发布

用户反馈苹果 iOS 26.4 系统离奇 Bug：捷克语键盘少了“ˇ”变音符号，导致手机无法解锁

全国首个：中国移动、华为等联合打造养老院里的“隐形守护者”，秒级 AI 识别老人摔倒

评论 (0)

24h 热议

宝马集团 2026 年一季度全球交付 56.57 万辆汽车，同比下降 3.5%

OPPO Pad Mini 小平板核心亮点公布：2.5K 144Hz OLED 屏、8000mAh 电池，4 月 21 日发布

用户反馈苹果 iOS 26.4 系统离奇 Bug：捷克语键盘少了“ˇ”变音符号，导致手机无法解锁

全国首个：中国移动、华为等联合打造养老院里的“隐形守护者”，秒级 AI 识别老人摔倒

Sensor Tower：2026 年第一季度 TikTok 全球月活首次突破 20 亿