何恺明MAE大火后，想梳理下视觉Transformer？这篇梳理了100多个( 四 ) _模型

受多头注意力设计的启发，多初始 token 策略被认为可以进一步提高分类性能。然而， DeiT [38]表明，这些额外的 token 将会向相同的结果收敛，这对 ViT 没有好处。从另一个角度来看， YOLOS [73]提供了一个使用多个初始 token 来统一分类和检测的范例，但这种仅编码器的设计会导致计算复杂性很高。根据 CaiT [40]的观察，后面的类 token 可以稍稍降低 Transformer 的 FLOPs ，并略微提升性能（从 79.9% 到 80.5%）。 Segmenter[84]也显示了这种策略在分割任务中的效率。
与仅使用编码器的 Transformer 的多个后期 token 相比，编码器 - 解码器结构节省了更多的计算。它通过使用一小组对象查询（掩码嵌入）来标准化检测 [28] 和分割 [137] 领域中的 Transformer 方法。通过组合多个后期 token 和对象查询（掩码嵌入）的形式，像可变形 DETR [67]这样的结构（以对象查询和可学习解码器嵌入为输入），可以将基于不同任务的可学习嵌入统一到 Transformer 编码器 - 解码器中。
未来的研究方向
视觉 Transformer 方法取得了巨大的进展，并显示出了有希望的结果，在多个基准上接近或超过了 SOTA CNN 方法的记录。但该技术尚不成熟，无法撼动卷积在 CV 领域的主导地位。基于论文中的一些分析，作者指出了视觉 Transformer 的一些具有潜力的发展方向：
集合预测
正如论文中所提到的，由于损失函数的梯度相同，附加的类 token 将始终收敛 [38] 。具有二分损失函数的集合预测策略已经在许多密集预测任务中广泛应用于视觉 Transformer[28] ， [137] 。如上所述，考虑分类任务的集合预测设计是很自然的，例如多类 token Transformer 借助集合预测来预测混合 patch 图像，这类似于 LVViT [41] 的数据增强策略。此外，集合预测策略中的一对一标签分配导致早期过程中的训练不稳定，这可能会降低最终结果的准确性。利用其他标签分配和损失改进集合预测可能对新的检测框架有所帮助。
自监督学习
自监督 Transformer 预训练已经成为了 NLP 领域的标准，并在各种应用中取得了巨大成功[2] ， [5] 。卷积孪生网络作为 CV 中的自监督范例，采用对比学习进行自监督预训练，不同于 NLP 中的掩蔽自编码器。最近，一些研究试图设计一个自监督的视觉 Transformer 来弥补视觉和语言之间预处理方法的差距。它们大多继承了 NLP 中的掩蔽自编码器或 CV 中的对比学习方案。但是，目前还没有用于视觉 Transformer 的监督方法能实现 NLP 中 GPT-3 那样的革命性。如论文所述，编码器 - 解码器结构可能通过学习解码器嵌入和位置编码来统一视觉任务。自监督学习的编码器 - 解码器 Transformer 值得进一步研究。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。