SegFormer

网络模型

可以看到网络使用多层Transformer作为Encoder，使用MLP作为decoder

创新点

SegFormer包含一个新颖的层次结构的Transformer编码器，它输出多尺度特征。它不需要位置编码，从而避免了位置编码的插值问题，当测试分辨率与训练不同时，导致性能下降。
SegFormer避免了复杂的解码器。提出的MLP解码器从不同层级聚合信息，从而结合了局部注意力和全局注意力，以生成强大的表示。

Overlap Patch Merging

Overlap Patch Merging是一种图像处理技术，用于将重叠的图像块合并成为一个完整的图像。在图像处理中，将图像分成小块进行处理可以带来一些好处，比如降低计算复杂度、提高处理效率等。然而，当图像块之间存在重叠时，需要将它们合并起来以恢复图像的完整性。 Overlap Patch Merging的过程通常包括以下步骤：

划分图像：将原始图像划分成重叠的块。这些块通常有固定的大小，并且相邻块之间有一定的重叠区域。
特征提取：对每个图像块进行特征提取，可以使用各种图像特征提取方法，如卷积神经网络（CNN）等。
重叠区域处理：对于处于重叠区域的图像块，需要通过一定的处理方式来合并它们。常见的方式包括取平均值、加权平均值等。
块合并：将经过处理的图像块合并成为一个完整的图像。这可以通过将块的像素值复制到相应的位置来实现。通过Overlap Patch Merging，可以将多个重叠的图像块合并成为一个无重叠的完整图像，从而恢复原始图像的细节和完整性。这种技术常用于图像拼接、图像重建等应用中，可以提高图像处理的准确性和效果。

补丁合并操作能够获得不同分辨率的图像特征。