SegFormer

网络模型

可以看到网络使用多层Transformer作为Encoder,使用MLP作为decoder

创新点

  • SegFormer包含一个新颖的层次结构的Transformer编码器,它输出多尺度特征。它不需要位置编码,从而避免了位置编码的插值问题,当测试分辨率与训练不同时,导致性能下降。

  • SegFormer避免了复杂的解码器。提出的MLP解码器从不同层级聚合信息,从而结合了局部注意力和全局注意力,以生成强大的表示。

Overlap Patch Merging

Overlap Patch Merging是一种图像处理技术,用于将重叠的图像块合并成为一个完整的图像。 在图像处理中,将图像分成小块进行处理可以带来一些好处,比如降低计算复杂度、提高处理效率等。然而,当图像块之间存在重叠时,需要将它们合并起来以恢复图像的完整性。 Overlap Patch Merging的过程通常包括以下步骤:

  1. 划分图像:将原始图像划分成重叠的块。这些块通常有固定的大小,并且相邻块之间有一定的重叠区域。
  2. 特征提取:对每个图像块进行特征提取,可以使用各种图像特征提取方法,如卷积神经网络(CNN)等。
  3. 重叠区域处理:对于处于重叠区域的图像块,需要通过一定的处理方式来合并它们。常见的方式包括取平均值、加权平均值等。
  4. 块合并:将经过处理的图像块合并成为一个完整的图像。这可以通过将块的像素值复制到相应的位置来实现。 通过Overlap Patch Merging,可以将多个重叠的图像块合并成为一个无重叠的完整图像,从而恢复原始图像的细节和完整性。这种技术常用于图像拼接、图像重建等应用中,可以提高图像处理的准确性和效果。

补丁合并操作能够获得不同分辨率的图像特征。

Mix-FFN

Mix-FFN使用了两种不同的前馈神经网络结构:全局前馈神经网络(Global FFN)和局部前馈神经网络(Local FFN)。全局FFN是一个具有较大感受野的前馈神经网络,能够更好地捕捉全局上下文信息。而局部FFN是一个具有较小感受野的前馈神经网络,能够更好地捕捉局部细节信息。

轻量级全MLP解码器

SegFormer使用了一个轻量级的解码器,该解码器仅由MLP层组成,避免了其他方法中通常使用的手工设计和计算量较大的组件。实现如此简单的解码器的关键在于我们的分层Transformer编码器具有比传统CNN编码器更大的有效感受野(ERF)