机器之心报道 
 机器之心编辑部 
 
视频分割效果优于所有现有方法 , 这篇入选CVPR 2022的论文是用Transformer解决CV任务的又一典范 。基于注意力的深度神经网络(DNN)在NLP和CV等不同领域的各种任务上都表现出了卓越的性能 。 这些进展使得此类网络(如 Transformer)成为解决多模态问题的有力候选 。 特别是近一两年 , Transformer 模型已经开始在CV任务上大展手脚 , 从目标识别到检测 , 效果优于通用的CNN视觉骨干网络 。
参考视频对象分割(referring video object segmentation, RVOS)任务涉及到给定视频帧中文本参考对象实例的分割 。 相比之下 , 在得到更广泛研究的参考图像分割(referring image segmention, RIS)任务中 , 对象主要通过它们的外观进行参考 。 在RVOS中 , 对象可以通过它们正在执行或参与的动作进行参考 。 这使得 RVOS比RIS复杂得多 , 因为参考动作的文本表达通常无法从单个静态帧中推导出来 。
此外 , 与基于图像的 RIS 不同 , RVOS 方法可能还需要跨多个帧(即跟踪)来建立参考对象的数据关联 , 以处理遮挡或运动模糊这类的干扰 。
为了解决这些挑战 , 现有 RVOS 方法往往依赖复杂的 pipeline 。 在被CVPR 2022接收的一篇论文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中 , 来自以色列理工学院的研究者提出了一种简单的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR ) 。
 
 文章图片
论文地址:https://arxiv.org/pdf/2111.14821.pdf
【单GPU每秒76帧,重叠对象完美分割,多模态Transformer用于视频分割】项目地址:https://github.com/mttr2021/MTTR
Huggingface Spaces Gradio demo:https://huggingface.co/spaces/akhaliq/MTTR
具体地 , 他们使用MTTR 将任务建模成序列预测问题 。 给定一个视频和文本查询 , 该模型在确定文本参考的对象之前为视频中所有对象生成预测序列 。 并且 , 他们的方法不需要与文本相关的归纳偏置模块 , 利用简单的交叉熵损失对齐视频和文本 。 因此 , 该方法相比以往简单的多 。
研究者提出的pipeline示意图如下所示 。 首先使用标准的Transformer文本编码器从文本查询中提取语言特征 , 使用时空编码器从视频帧中提取视觉特征 。 接着将这些特征传递给多模态 Transformer 以输出几个对象预测序列 。 然后为了确定哪个预测序列能够最好地对应参考对象 , 研究者计算了每个序列的文本参考分数 。 为此 , 他们还提出了一种时序分割voting方案 , 使模型在做出决策时专注于最相关的部分 。
 
 文章图片
从实验结果来看 , MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别实现了+5.7和+5.0的mAP增益 , 同时每秒能够处理76帧 。
研究者还展示了一系列不同对象之间的实际分割效果 , 如下穿白色T恤和蓝色短裤的冲浪者(淡黄色冲浪板) 。
 
 文章图片
又如嬉戏玩闹的大小猩猩 。
 
 文章图片
网友对这项研究展示的视频对象分割效果赞不绝口 。 有人表示 , 即使在重叠的对象上 , 分割效果也很有效 。
 
 文章图片
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
