港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026
现如今,扩散模型已经成为当前图像生成领域的核心技术之一。从文本生成图像到复杂视觉内容合成,这类模型已经能够生成高度逼真的画面。然而,在真实应用场景中,人们对生成模型的要求并不仅仅是“生成逼真图像”,而是希望模型能够严格按照提示完成特定任务。例如,在要求生成包含指定文字的图像时,模型可能 simply 将文字放大到占据画面大部分区域,从而轻松获得 OCR 系统的高分,而在需要生成多个对象的任务中,模型也可能通过极度简化场景结构来满足评分规则。这种现象通常被称为“奖励作弊”,已经成为当前生成模型对齐研究中的一个重要挑战。为了解决这一问题,近年来一些研究开始尝试利用强化学习或奖励机制对扩散模型进行后训练,希望通过奖励信号引导模型生成更加符合任务要求的内容。然而实践中逐渐发现,这种方法容易带来一个新的问题:模型可能学会迎合评价指标,而不是理解任务本身。在这样的研究背景下,香港大学赵恒爽团队提出了一种新的扩散模型后训练方法,并在论文《GDRO: Group-level Reward Post-training Suitable for Diffus
来源: 雷锋网