港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026

现如今，扩散模型已经成为当前图像生成领域的核心技术之一。从文本生成图像到复杂视觉内容合成，这类模型已经能够生成高度逼真的画面。然而，在真实应用场景中，人们对生成模型的要求并不仅仅是“生成逼真图像”，而是希望模型能够严格按照提示完成特定任务。例如，在要求生成包含指定文字的图像时，模型可能 simply 将文字放大到占据画面大部分区域，从而轻松获得 OCR 系统的高分，而在需要生成多个对象的任务中，模型也可能通过极度简化场景结构来满足评分规则。这种现象通常被称为“奖励作弊”，已经成为当前生成模型对齐研究中的一个重要挑战。为了解决这一问题，近年来一些研究开始尝试利用强化学习或奖励机制对扩散模型进行后训练，希望通过奖励信号引导模型生成更加符合任务要求的内容。然而实践中逐渐发现，这种方法容易带来一个新的问题：模型可能学会迎合评价指标，而不是理解任务本身。在这样的研究背景下，香港大学赵恒爽团队提出了一种新的扩散模型后训练方法，并在论文《GDRO: Group-level Reward Post-training Suitable for Diffus

来源: 雷锋网

聚合资讯

此资讯为聚合内容，请访问原始来源阅读完整内容

阅读原始内容

来源：雷锋网

沐瞳内部信称管理架构不变：成为 Savvy 全资子公司后，将给员工提供多项激励计划

一加李杰晒 40W 超级冰点磁吸散热器新品，3 月 24 日与 15T 手机同台发布

港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026

聚合资讯

相关资讯

宝马集团 2026 年一季度全球交付 56.57 万辆汽车，同比下降 3.5%

OPPO Pad Mini 小平板核心亮点公布：2.5K 144Hz OLED 屏、8000mAh 电池，4 月 21 日发布

用户反馈苹果 iOS 26.4 系统离奇 Bug：捷克语键盘少了“ˇ”变音符号，导致手机无法解锁

全国首个：中国移动、华为等联合打造养老院里的“隐形守护者”，秒级 AI 识别老人摔倒

评论 (0)

24h 热议

宝马集团 2026 年一季度全球交付 56.57 万辆汽车，同比下降 3.5%

OPPO Pad Mini 小平板核心亮点公布：2.5K 144Hz OLED 屏、8000mAh 电池，4 月 21 日发布

用户反馈苹果 iOS 26.4 系统离奇 Bug：捷克语键盘少了“ˇ”变音符号，导致手机无法解锁

全国首个：中国移动、华为等联合打造养老院里的“隐形守护者”，秒级 AI 识别老人摔倒

Sensor Tower：2026 年第一季度 TikTok 全球月活首次突破 20 亿