首页 科技周边 人工智能 CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

Apr 26, 2024 pm 06:10 PM
工程 指代分割

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

指代分割(Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。 RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显着进展,但仍然面临着模态差异 (modality gap) 的问题,即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  图 1:细粒度语言 - 图像对齐能力对 RIS 的重要性示意图。红色掩码是目前最先进的 RIS 算法之一 LAVT 的预测结果,而黄色虚线框则是正确的标注。

目前的RIS 研究主要集中在设计新颖的损失函数或引入创新的网络架构/ 模块,以增强语言- 图像的分布对齐。尽管取得了显着进展,但仍存在两个根本性问题,导致它们在细粒度语言- 图像对齐(Fine-grained Visual Grounding)方面能力不足:

1. 这些方法主要依赖于句子级别的语言特征进行语言- 图像对齐,导致它们在文字级别的语言- 图像对齐能力较为薄弱。
2. 这些方法在训练过程中往往缺乏显式的监督信号,无法有效地教会模型进行细粒度对齐,导致它们在处理复杂的指代语言时表现不佳。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                 图2:现有算法的缺陷

在近期一篇CVPR 2024 工作中,来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务Mask Grounding。通过随机掩码部分文本词汇,并让算法学习预测其真实身份,这一任务旨在显式地教会模型学习文本与视觉对象之间的细粒度对应关系。除此之外,他们还提出了一个新颖的跨模态对齐模块(Cross-modal Alignment Module)和一个新颖的跨模态对齐损失函数(Cross-modal Alignment Loss),来进一步全面缩小语言和图像之间的模态差距。基于这些技术,他们设计了一个全新的实例分割网络架构 Mask-grounded Network (MagNet)。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  • 论文标题:Mask Grounding for Referring Image Segmentation
  • 论文地址:https://arxiv .org/abs/2312.12198

在RefCOCO、RefCOCO 和G-Ref 数据集上,MagNet 大幅超越了所有之前最优的算法,在整体交并比(oIoU) 这项核心指标上显着提升了2.48 个百分点。可视化结果也证实,MagNet 在处理复杂场景和语言表达时具有出色的表现。

方法

MagNet 由3 个独立互补的模块组成,分别为Mask Grounding,Cross-modal Alignment Module 和Cross-modal Alignment Loss。

1.Mask Grounding

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                              图 3:Mask Grounding 流程图

如图 3 所示,在给定输入图像、对应的指代表达以及分割掩码的情况下,作者随机选取句子中的某些词汇,并将其替换为一个特殊的可学习掩码 token。然后,训练模型来预测这些被替换词汇的实际身份。通过成功预测被掩码 token 的身份,模型能够理解文本中的哪些词汇对应于图像的哪些部分,从而在此过程中学习细粒度语言 - 图像对齐能力。为了执行这一辅助任务,首先提取掩码区域的中心坐标,并将其传递给一个 2 层 MLP,以编码分割掩码的特征。同时,使用线性层将语言特征映射到与图像特征相同的维度。然后,使用提出的掩码 token 预测器联合处理这些特征,并使用注意力机制模块来进行掩码 token 预测。虽然 Mask Grounding 需要通过语言编码器进行额外的前向传递来处理被掩码的表达式,但由于语言编码器非常小,整体计算成本几乎可以忽略不计。

2.Cross-modal Alignment Module (CAM)

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                 图 4:Cross-modal Alignment Module 结构图

如图 4 所示,为了进一步提升模型性能,作者还提出了跨模态对齐模块(CAM),通过在执行语言 - 图像融合之前将全局上下文先验注入图像特征来增强语言 - 图像对齐效果。CAM 首先使用不同窗口大小的池化操作生成 K 个不同金字塔尺度的特征图。然后,每个特征图通过一个 3 层 MLP 以更好地提取全局信息,并与另一模态进行交叉注意力操作。接下来,所有输出特征通过双线性插值上采样到原始特征图尺寸,并在通道维度上拼接。随后,使用一个 2 层 MLP 将拼接后的特征通道数减少回原始维度。为了防止多模态信号淹没原始信号,使用一个带有 Tanh 非线性的门控单元来调制最终输出。最后,这个门控后的特征被加回到输入特征中,然后传递给图像或语言编码器的下一阶段。在作者的实现中,CAM 被加到图像和语言编码器的每个阶段末尾。

3.Cross-modal Alignment Loss (CAL)

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                             图 5:Cross-modal Alignment Loss 公式

为了监督模型对齐语言和图像特征,作者提出了一种新颖的跨模态对齐损失函数 (CAL)。图五展示了该损失函数的数学公式。与之前工作不同,CAL 同时考虑了像素到像素 (Pixel-to-Pixel,P2P) 和像素到文本 (Pixel-to-Text,P2T) 之间的对齐。精确的像素到像素对齐能确保模型能分割输出具有准确形状和边界的分割掩码,而精确的像素到文本对齐能使模型能够正确地将文本描述与其匹配的图像区域进行合理的关联。

实验

在表 1 中,作者使用 oIoU 指标评估 MagNet,并与现有最先进的算法做性能比较。测试数据为 RefCOCO、RefCOCO 和 G-Ref。在单一和多个 / 额外数据集的设置下,MagNet 的性能在这些数据集上全都是 SOTA。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                        表1:实验结果

可视化结果CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
                               图6:MagNet 可视化结果

在图6 中,我们可以看到,MagNet 的可视化结果也非常突出,在许多困难的场景中都比对比基准LAVT 强很多。

小结

这篇文章深入探讨了指代分割(RIS)领域的挑战和当前存在的问题,特别是在细粒度语言- 图像对齐方面的不足。针对这些问题,清华大学和博世中央研究院的研究人员提出了一种新的方法,名为MagNet,通过引入辅助任务Mask Grounding、跨模态对齐模块和跨模态对齐损失函数,全面提升了语言和图像之间的对齐效果。实验证明,MagNet 在 RefCOCO、RefCOCO 和 G-Ref 数据集上均取得了显着优异的性能,超越了之前最先进的算法,表现出了强大的泛化能力。可视化结果也证实了 MagNet 在处理复杂场景和语言表达时的优越性。这一研究为指代分割领域的进一步发展提供了有益的启示,有望推动该领域取得更大的突破。

团队介绍

此论文来源于清华大学自动化系(https:/ /www.au.tsinghua.edu.cn)和博世中央研究院(https://www.bosch.com/research/)。其中论文一作庄荣贤为清华大学在读博士生,并在博世中央研究院实习;项目负责人为邱旭冲博士,任博世中央研究院资深研发科学家;通讯作者为清华大学自动化系黄高教授。

以上是CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1243
24
ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行,连推理能力都没用到 LLM用于时序预测真的不行,连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles