北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

近年来，多模态大模型的发展正在不断推动视觉理解能力的提升。从图像分类、目标检测到视觉问答等任务，视觉系统已经能够在多种场景中实现较高水平的识别和推理能力。然而，在更复杂的层级视觉识别任务中，现有模型仍然存在明显不足。现实世界中的许多视觉概念天然具有层级结构，例如生物分类体系中的“界—门—纲—目—科—属—种”，以及商品分类、医学诊断等领域中的多层级标签体系。这类任务不仅要求模型识别具体类别，还需要理解不同类别之间的层级关系和语义结构。但目前多数视觉模型仍然基于扁平分类框架进行训练，在进行层级预测时容易出现分类路径不一致或层级关系冲突等问题。与此同时，在开放世界环境中，视觉模型还需要具备识别未知类别的能力。以生物识别任务为例，现实世界中的物种数量远远超过现有数据集的覆盖范围，新的物种仍在不断被发现。当模型面对训练数据中未出现的类别时，往往难以进行合理推断。如何利用已有知识帮助模型理解类别之间的层级结构，并在有限数据条件下推断未知类别，逐渐成为当前视觉智能研究中的重要问题。在这一背景下，北大王选所的彭宇新团队在论文《Taxonom

来源: 雷锋网

聚合资讯

此资讯为聚合内容，请访问原始来源阅读完整内容

阅读原始内容

来源：雷锋网

拆开 MacBook Neo，我发现了未来苹果电脑的蛛丝马迹

计算所程学旗团队：随机剪枝 AI 攻击策略，让对抗样本更具「通用攻击力」丨CVPR 2026

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

聚合资讯

相关资讯

别被微软商店卡死了：如何绕过官方限制，给 Windows 强行安装 OpenAI Codex 客户端

宝马集团 2026 年一季度全球交付 56.57 万辆汽车，同比下降 3.5%

OPPO Pad Mini 小平板核心亮点公布：2.5K 144Hz OLED 屏、8000mAh 电池，4 月 21 日发布

用户反馈苹果 iOS 26.4 系统离奇 Bug：捷克语键盘少了“ˇ”变音符号，导致手机无法解锁

评论 (0)

24h 热议

别被微软商店卡死了：如何绕过官方限制，给 Windows 强行安装 OpenAI Codex 客户端

宝马集团 2026 年一季度全球交付 56.57 万辆汽车，同比下降 3.5%

OPPO Pad Mini 小平板核心亮点公布：2.5K 144Hz OLED 屏、8000mAh 电池，4 月 21 日发布

用户反馈苹果 iOS 26.4 系统离奇 Bug：捷克语键盘少了“ˇ”变音符号，导致手机无法解锁

全国首个：中国移动、华为等联合打造养老院里的“隐形守护者”，秒级 AI 识别老人摔倒