即插即用系列 | CVPR 2024 FADC:频域自适应空洞卷积,完美解决语义分割“网格效应”

张开发
2026/6/25 21:53:42 15 分钟阅读
即插即用系列 | CVPR 2024 FADC:频域自适应空洞卷积,完美解决语义分割“网格效应”
论文名称Frequency-Adaptive Dilated Convolution for Semantic Segmentation论文原文 (Paper)https://arxiv.org/abs/2403.05369代码 (code)https://github.com/ying-fu/FADC哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from333.337.0.0本论文的完整复现代码即插即用版已更新至专栏即插即用系列代码实践 | CVPR 2024 FADC频域自适应空洞卷积完美解决语义分割“网格效应”目录1. 核心思想2. 背景与动机3. 主要创新点4. 方法细节整体网络架构核心创新模块详解理念与机制总结5. 即插即用模块的作用6. 实验部分简单分析1. 核心思想本文针对语义分割中空洞卷积Dilated Convolution面临的网格伪影Gridding Effect和高频细节丢失问题提出了一种**频率自适应空洞卷积FADC**方案。核心观点是不同频率区域应匹配不同的膨胀率Dilation Rate高频区域如边界需要小膨胀率以保留细节低频区域如平滑内部需要大膨胀率以获取上下文。基于此论文设计了空间自适应调整膨胀率的 FADC并配合AdaKern自适应卷积核和FreqSelect频率选择模块分别从权重和特征层面动态平衡高低频分量显著提升了分割精度。2. 背景与动机背景空洞卷积通过在卷积核中插入“空洞”来扩大感受野是语义分割如 DeepLab 系列的标配。然而它存在两个固有缺陷网格效应由于采样点不连续输出特征图会出现棋盘格状的伪影导致局部信息丢失。高频损失随着膨胀率增大卷积核变得稀疏难以捕获细微的边缘和纹理高频信息这对精细分割致命。动机图解分析看图说话图 (b) 标准空洞卷积可以明显看到特征图中存在规律性的**“网格状”黑点**Gridding Effect这意味着特征提取是不连续的丢失了大量局部细节。图 © 本文 FADC特征图变得非常平滑且连续同时物体的**边缘轮廓高频信息**依然清晰可见。结论这直观地展示了传统方法的**“采样缺陷”引出了本文通过动态调整采样策略**来修复空间连续性和高频细节的核心动机。看图说话该图从频谱分析角度展示了不同膨胀率对高/低频的响应。大膨胀率r 8 r8r8虽然感受野大但会引入许多高频混叠Aliasing破坏图像结构。这进一步说明了根据图像内容的频率特性动态选择膨胀率的必要性。3. 主要创新点频率自适应空洞卷积 (FADC)提出了一种空间自适应的策略根据图像局部频率内容动态为每个像素分配最佳的膨胀率打破了全局固定膨胀率的限制。自适应卷积核模块 (AdaKern)在权重空间进行分解将卷积核分解为低频平滑和高频差分分量并根据输入动态调整两者的比例增强对高频细节的捕获能力。频率选择模块 (FreqSelect)在特征空间进行重加权根据空间位置动态抑制有害的高频噪声如网格伪影或增强有益的边缘信息进一步优化特征表达。4. 方法细节整体网络架构数据流向输入 (Input)特征图X XX。分支一膨胀率预测通过一个轻量级的小网络Rate Predictor根据输入特征的空间频率分布预测出一个空间对齐的膨胀率图 (Dilation Map)。分支二卷积运算AdaKern动态调整卷积核权重生成适应当前通道特性的组合权重。FADC 采样利用预测的膨胀率图对输入特征进行可变形的重采样类似 Deformable Conv但偏移量由膨胀率决定。后处理FreqSelect对卷积输出的特征进行频率加权抑制伪影。输出 (Output)得到感受野自适应且细节保留完整的特征图。核心创新模块详解** 模块 AFADC (Frequency-Adaptive Dilated Convolution)**设计逻辑高频区域边缘→ \rightarrow→需要连续采样→ \rightarrow→分配小膨胀率接近 1。低频区域平滑背景→ \rightarrow→需要大感受野→ \rightarrow→分配大膨胀率。工作机制网络预测一个连续的膨胀率场D ∈ R H × W D \in \mathbb{R}^{H \times W}D∈RH×W。在卷积采样时采样点坐标( p k D p ⋅ Δ p k ) (p_k D_{p} \cdot \Delta p_k)(pk​Dp​⋅Δpk​)是非整数的因此利用双线性插值来获取特征值。这本质上是将离散的空洞卷积变成了一个连续可变的采样过程。** 模块 BAdaKern (Adaptive Kernel Module)**设计逻辑普通卷积核是一个固定的矩阵往往偏向低频平滑。为了抓取细节必须显式增强高频分量。内部结构分解将卷积权重W WW分解为低频部分W l o w W_{low}Wlow​例如均值滤波器和高频部分W h i g h W − W l o w W_{high} W - W_{low}Whigh​W−Wlow​。重组引入一个通道注意力的标量α c \alpha_cαc​动态重组权重W ′ ( 1 − α c ) ⋅ W l o w α c ⋅ W h i g h W (1-\alpha_c) \cdot W_{low} \alpha_c \cdot W_{high}W′(1−αc​)⋅Wlow​αc​⋅Whigh​。目的让网络自己决定哪些通道需要关注纹理高频哪些通道关注背景低频。模块 CFreqSelect (Frequency Selection Module)设计逻辑空洞卷积容易在高频段引入混叠噪声Aliasing。工作机制将特征图分解为高频特征Y h i g h Y_{high}Yhigh​和低频特征Y l o w Y_{low}Ylow​通过拉普拉斯金字塔或简单的高斯模糊差分。学习一个空间掩码M MM对高低频特征进行加权融合Y o u t M ⋅ Y h i g h ( 1 − M ) ⋅ Y l o w Y_{out} M \cdot Y_{high} (1-M) \cdot Y_{low}Yout​M⋅Yhigh​(1−M)⋅Ylow​。效果在平坦区域抑制高频噪声消除网格效应在边缘区域保留高频信号。理念与机制总结核心理念“频域解耦按需分配”。这篇论文不像以前的方法那样只在空间位置上做文章如 Deformable Conv而是引入了**频率Frequency**这个维度。协同工作FADC负责在空间上把采样点放到最合适的位置边缘密集采背景稀疏采。AdaKern负责在权重上强化高频提取能力。FreqSelect负责在特征上滤除采样带来的噪声。三者形成闭环完美解决了空洞卷积的固有缺陷。5. 即插即用模块的作用FADC 及其子模块具有极强的通用性可以直接替换现有的卷积层**FADC **适用场景所有使用Dilated Convolution的网络特别是语义分割任务。具体应用直接替换 DeepLabV3 中的ASPP (Atrous Spatial Pyramid Pooling)模块中的标准空洞卷积或者替换 ResNet-50 最后两个 Stage 的空洞卷积层。**AdaKern **适用场景需要增强边缘检测或纹理分析的任务。具体应用可以插入到任何标准卷积层中作为一个动态权重生成器增强模型对高频信息的敏感度且几乎不增加推理延迟因为权重重组可以在推理前预计算。**FreqSelect **适用场景图像重建、去噪、超分辨率等对高频伪影敏感的任务。具体应用作为一个后处理模块接在特征提取层之后用于动态抑制特征图中的混叠噪声和棋盘格伪影。6. 实验部分简单分析定量分析在ADE20K数据集上将 FADC 应用于 DeepLabV3mIoU 提升了1.2% - 1.8%这在语义分割领域是非常显著的提升。相比于其他动态卷积方法如 Deformable ConvFADC 在保持较低 FLOPs 的同时性能更优说明基于频率的引导比纯粹的空间学习更有效。消融实验单独使用 FADC、AdaKern 或 FreqSelect 均有提升但三者结合Full Method效果最好证明了三个模块在频域处理上的互补性。可视化效果分割结果的边缘更加锐利细小物体如杆子、远处的行人的分割精度显著提高且大面积区域内部更加平滑没有了破碎的孔洞。 总结这篇论文是典型的“用频域知识解释并优化空洞卷积”的佳作。它不仅告诉我们空洞卷积为什么会有问题频域混叠还给出了一套优雅的解决方案。对于做分割、检测以及底层视觉去噪、超分的同学这篇论文的思路非常值得借鉴

更多文章