【第五期论文复现赛-语义分割】DMNet

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

【第五期论文复现赛-语义分割】DMNet

热心网友时间：2025-07-18

转载

第五期论文复现赛DMNet，DMNet适用于语义分割任务，本次复现的目标是Cityscapes 验证集miou 79.64%，复现的miou79.76%，该算法已被PaddleSeg合入。

【第五期论文复现赛-语义分割】dmnet - 游乐网

【论文复现赛】DMNet：Dynamic Multi-scale Filters for Semantic Segmentation

本文提出了动态卷积模块(Dynamic Convolutional Modules)，该模块可以利用上下文信息生成不同大小的卷积核，自适应地学习图片的语义信息。该模型在Cityscapes验证集上mIOU为79.64%，本次复现的mIOU为79.76%，该算法已被PaddleSeg收录。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

代码参考：https://github.com/open-mmlab/mmsegmentation/tree/master/configs/dmnet
本项目地址：https://github.com/justld/DMNet_paddle

一、模型结构

【第五期论文复现赛-语义分割】DMNet - 游乐网
如上图所示，输入图片经过CNN（backbone网络）后，得到Feature Map，接着将Feature Map送入DCM模块，不同的DCM模块有着不同大小的卷积核，对应的感受野也不同，将特征图concat后送入语义分割head进行像素级分割。

二、DCM（Dynamic Convolutional Modules）

【第五期论文复现赛-语义分割】DMNet - 游乐网
上图为DCM模块，该模块有2个分支：
分支一：使用1x1的卷积核压缩特征图的通道，得到fk(x)；
分支二（Context-aware filters）：对特征图进行平均池化，得到不同大小的特征图；
得到2个分支的特征图后，把分支二的特征图作为卷积核，和分支一的特征图进行深度可分离卷积运算，再经过1x1的卷积得到DCM的输出。（该模块的核心在于通过Adaptive Pooling得到不同大小的卷积核）

三、滤波器对比

【第五期论文复现赛-语义分割】DMNet - 游乐网
上图为不同的滤波器对比，为了使模型自适应学习适合的卷积核，Inception采用了多卷积通道（每个通道卷积核大小不同）融合的方法，ASPP采用了多空洞卷积通道（每个通道卷积核的Dilation不同）融合的方法，而DCM利用AdaptivePooling来生成卷积核，该方法能够更好的利用上下文信息。

四、实验结果

【第五期论文复现赛-语义分割】DMNet - 游乐网
DMNet在PASCAL和ADE20K数据集上都获得了SOTA效果，在PASCAL验证集上的mIOU为54.4%，ADE20K验证集上的mIOU为45.5%。

五、滤波器实验对比

【第五期论文复现赛-语义分割】DMNet - 游乐网
上图为采用了Inception、ASPP和DCM的分割结果对比，从上图可以看出，受益于DCM的滤波器生成策略，DCM能够更好的利用上下文信息来提升语义分割效果。

六、核心代码

class DCM(nn.Layer):    """    Dynamic Convolutional Module used in DMNet.    Args:        filter_size (int): The filter size of generated convolution kernel used in Dynamic Convolutional Module.        fusion (bool): Add one conv to fuse DCM output feature.        in_channels (int): Input channels.        channels (int): Channels after modules, before conv_seg.    """    def __init__(self, filter_size, fusion, in_channels, channels):        super().__init__()        self.filter_size = filter_size          # 滤波器尺寸        self.fusion = fusion                    # 是否在DCM的输出特征图后面加上一个卷积层        self.channels = channels                # 输出通道数                pad = (self.filter_size - 1) // 2       # 计算pad        if (self.filter_size - 1) % 2 == 0:            self.pad = (pad, pad, pad, pad)        else:            self.pad = (pad + 1, pad, pad + 1, pad)        self.avg_pool = nn.AdaptiveAvgPool2D(filter_size)  # 通过自适应池化产生filter的权重        self.filter_gen_conv = nn.Conv2D(in_channels, channels, 1)        self.input_redu_conv = layers.ConvBNReLU(in_channels, channels, 1)  # 1x1的卷积减少特征图通道        self.norm = layers.SyncBatchNorm(channels)        self.act = nn.ReLU()        if self.fusion:            self.fusion_conv = layers.ConvBNReLU(channels, channels, 1)    def forward(self, x):        generated_filter = self.filter_gen_conv(            self.avg_pool(x))        # 分支二：生成滤波器权重        x = self.input_redu_conv(x)  # 分支一：减少特征图通道        b, c, h, w = x.shape        x = x.reshape([1, b * c, h, w])        generated_filter = generated_filter.reshape(            [b * c, 1, self.filter_size, self.filter_size])                x = F.pad(x, self.pad, mode='constant', value=0)          output = F.conv2d(x, weight=generated_filter, groups=b * c)  # 深度可分离卷积        output = output.reshape([b, self.channels, h, w])        output = self.norm(output)        output = self.act(output)        if self.fusion:            output = self.fusion_conv(output)        return output

登录后复制

七、DMNet在线体验

运行以下代码，体验DMNet训练、验证和预测。

step 1: 解压cityscape数据集

step 2: 训练DMNet（本模型复现环境是Tesla V100 * 4，想要完整的训练出复现结果请移步脚本任务）

step 3: 测试DMNet在验证集的效果（这里给出个训练过程中最好的权重验证结果，对应的日志和vdl可视化文件在log和output目录下）

In [ ]

# step 1: 解压数据%cd ~/data/data64550!tar -xf cityscapes.tar%cd ~/

登录后复制In [ ]

# step 2: 模型训练%cd ~/DMNet_paddle/!python train.py --config configs/dmnet/dmnet_cityscapes_1024x512_100k.yml --num_workers 4 --do_eval --use_vdl --log_iter 20 --save_interval 2000

登录后复制In [ ]

# step 3: 模型验证--此处给出了在Tesla V100 * 4环境下训练出的模型权重%cd ~/DMNet_paddle/!python val.py --config configs/dmnet/dmnet_cityscapes_1024x512_100k.yml --model_path output/best_model/model.pdparams

登录后复制

八、复现结果

本次论文复现赛要求是Cityscapes 验证集mIOU达到79.64%，本次复现的结果为mIOU 79.67%。
环境：
paddlepaddle==2.2.0
Tesla v100 * 4

九、复现经验

1、如果复现的精度未达到要求，且差距不大，可以尝试增加训练次数（第一次80k训练精度只有79.35%，后来训练100k达到79.88%达到验收标准，最后PR时再训练80K达到79.67%，miou变化是因为未固定随机数种子）；
2、为了tipc方便，最好先验证模型能否正常动转静导出再训练（有些代码在动转静导出时会出错，最好先调试导出功能再训练，节省复现时间）；
3、优先使用PaddleSeg框架复现论文，可以节省大量的时间，同时能够再PR时提高效率。

来源:https://www.php.cn/faq/1413430.html

上一篇：【NLP】基于Seq2Seq的代码注释自动生成技术研究

下一篇：百度网盘AI大赛——图像处理挑战赛：手写文字擦除第10名方案