发现最好的AI产品 - OKRVVAI导航站

北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026

近年来,多模态大模型的发展正在不断推动视觉理解能力的提升。从图像分类、目标检测到视觉问答等任务,视觉系统已经能够在多种场景中实现较高水平的识别和推理能力。然而,在更复杂的层级视觉识别任务中,现有模型仍然存在明显不足。现实世界中的许多视觉概念天然具有层级结构,例如生物分类体系中的“界—门—纲—目—科—属—种”,以及商品分类、医学诊断等领域中的多层级标签体系。这类任务不仅要求模型识别具体类别,还需要理解不同类别之间的层级关系和语义结构。但目前多数视觉模型仍然基于扁平分类框架进行训练,在进行层级预测时容易出现分类路径不一致或层级关系冲突等问题。与此同时,在开放世界环境中,视觉模型还需要具备识别未知类别的能力。以生物识别任务为例,现实世界中的物种数量远远超过现有数据集的覆盖范围,新的物种仍在不断被发现。当模型面对训练数据中未出现的类别时,往往难以进行合理推断。如何利用已有知识帮助模型理解类别之间的层级结构,并在有限数据条件下推断未知类别,逐渐成为当前视觉智能研究中的重要问题。在这一背景下,北大王选所的彭宇新团队在论文《Taxonom

来源: 雷锋网

聚合资讯

此资讯为聚合内容,请访问原始来源阅读完整内容

阅读原始内容

来源:雷锋网

评论 (0)

登录后可以发表评论