Paddle MS-SSIM：训练一个用于图像压缩的自编码器

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Paddle MS-SSIM：训练一个用于图像压缩的自编码器

热心网友时间：2025-07-17

转载

本文介绍了使用SSIM或MS-SSIM作为损失函数训练图像压缩自编码器的方法。自编码器含编码器与解码器，编码器用GDN模块，解码器用IGDN模块。以柯达24张照片为训练样本，将1减去SSIM或MS-SSIM作为损失函数，通过指定参数训练模型，还演示了图像压缩和解压缩过程，因训练样本少，恢复图像画质损失较严重。

paddle ms-ssim：训练一个用于图像压缩的自编码器 - 游乐网

引入

自编码器（AutoEncoder）是一类自监督算法，即输入数据和标签数据是相同的数据，常用于数据降维，图像压缩等领域

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

自编码器一般由一个提取特征的编码器和一个恢复特征的解码器组成

本次就介绍如何使用 SSIM 或 MS-SSIM 作为损失函数训练一个用于图像压缩的自编码器

参考资料

END-TO-END OPTIMIZED IMAGE COMPRESSION

Paddle MS-SSIM

自编码器

一般的自编码器包含两个主要部分，即编码器和解码器，编码器用于压缩特征，解码器由于解压缩特征，大致架构如下图所示：

Paddle MS-SSIM：训练一个用于图像压缩的自编码器 - 游乐网

准备

安装 Paddle MS-SSIN

In [ ]

!pip install paddle_msssim

登录后复制

导入必要的包

In [ ]

import osimport sysimport argparseimport numpy as npfrom PIL import Imageimport paddleimport paddle.nn as nnimport paddle.nn.functional as Ffrom paddle.optimizer import Adamfrom paddle.vision import transformsfrom paddle.io import DataLoader, Datasetfrom paddle_msssim import ssim, ms_ssim, SSIM, MS_SSIM

登录后复制

模型实现

GDN / IGDN 模块

GDN（Generalized Divisive Normalization）/ IGDN（Inverse Generalized Divisive Normalization）

其类似一般卷积神经网络（CNN）中批归一化（Batch Normalization）的作用，可以很好的捕捉图像的统计特性，并将其转换为高斯分布。

在自编码器的编码器（Encoder）阶段使用 GDN 模块参与网络学习

对应的在解码器（Decoder）阶段，使用 GDN 的逆运算 IGND 模块参与网络学习

GDN / IGDN 的公式如下，在下式中，k 代表 stage 阶段序号，i,j 代表像素位置：

Paddle MS-SSIM：训练一个用于图像压缩的自编码器 - 游乐网

具体的代码实现如下：

In [ ]

class GDN(nn.Layer):    def __init__(self,                 num_features,                 inverse=False,                 gamma_init=.1,                 beta_bound=1e-6,                 gamma_bound=0.0,                 reparam_offset=2**-18,                 ):        super(GDN, self).__init__()        self._inverse = inverse        self.num_features = num_features        self.reparam_offset = reparam_offset        self.pedestal = self.reparam_offset**2        beta_init = paddle.sqrt(paddle.ones((num_features, ), dtype=paddle.float32) + self.pedestal)        gama_init = paddle.sqrt(paddle.full((num_features, num_features), fill_value=gamma_init, dtype=paddle.float32)                                * paddle.eye(num_features, dtype=paddle.float32) + self.pedestal)        self.beta = self.create_parameter(            shape=beta_init.shape, default_initializer=nn.initializer.Assign(beta_init))        self.gamma = self.create_parameter(            shape=gama_init.shape, default_initializer=nn.initializer.Assign(gama_init))        self.beta_bound = (beta_bound + self.pedestal) ** 0.5        self.gamma_bound = (gamma_bound + self.pedestal) ** 0.5    def _reparam(self, var, bound):        var = paddle.clip(var, min=bound)        return (var**2) - self.pedestal    def forward(self, x):        gamma = self._reparam(self.gamma, self.gamma_bound).reshape((self.num_features, self.num_features, 1, 1))  # expand to (C, C, 1, 1)        beta = self._reparam(self.beta, self.beta_bound)        norm_pool = F.conv2d(x ** 2, gamma, bias=beta, stride=1, padding=0)        norm_pool = paddle.sqrt(norm_pool)        if self._inverse:            norm_pool = x * norm_pool        else:            norm_pool = x / norm_pool        return norm_pool

登录后复制

编码器

使用多层卷积和 GDN 模块构建一个简易的编码器，具体结构如下图所示：

Paddle MS-SSIM：训练一个用于图像压缩的自编码器 - 游乐网

In [ ]

class Encoder(nn.Layer):    def __init__(self, C=32, M=128, in_chan=3):        super(Encoder, self).__init__()        self.enc = nn.Sequential(            nn.Conv2D(in_channels=in_chan, out_channels=M,                      kernel_size=5, stride=2, padding=2, bias_attr=False),            GDN(M),            nn.Conv2D(in_channels=M, out_channels=M, kernel_size=5,                      stride=2, padding=2, bias_attr=False),            GDN(M),            nn.Conv2D(in_channels=M, out_channels=M, kernel_size=5,                      stride=2, padding=2, bias_attr=False),            GDN(M),            nn.Conv2D(in_channels=M, out_channels=C, kernel_size=5,                      stride=2, padding=2, bias_attr=False)        )    def forward(self, x):        return self.enc(x)

登录后复制

解码器

使用多层转置卷积和 IGDN 模块构建一个简易的解码器，具体结构如下图：

Paddle MS-SSIM：训练一个用于图像压缩的自编码器 - 游乐网

In [ ]

class Decoder(nn.Layer):    def __init__(self, C=32, M=128, out_chan=3):        super(Decoder, self).__init__()        self.dec = nn.Sequential(            nn.Conv2DTranspose(in_channels=C, out_channels=M, kernel_size=5,                               stride=2, padding=2, output_padding=1, bias_attr=False),            GDN(M, inverse=True),            nn.Conv2DTranspose(in_channels=M, out_channels=M, kernel_size=5,                               stride=2, padding=2, output_padding=1, bias_attr=False),            GDN(M, inverse=True),            nn.Conv2DTranspose(in_channels=M, out_channels=M, kernel_size=5,                               stride=2, padding=2, output_padding=1, bias_attr=False),            GDN(M, inverse=True),            nn.Conv2DTranspose(in_channels=M, out_channels=out_chan, kernel_size=5,                               stride=2, padding=2, output_padding=1, bias_attr=False),        )    def forward(self, q):        return F.sigmoid(self.dec(q))

登录后复制

自编码器

将上述的编码器和解码器组合起来就可以构成一个简单的自编码器In [ ]

class AutoEncoder(nn.Layer):    def __init__(self, C=128, M=128, in_chan=3, out_chan=3):        super(AutoEncoder, self).__init__()        self.encoder = Encoder(C=C, M=M, in_chan=in_chan)        self.decoder = Decoder(C=C, M=M, out_chan=out_chan)    def forward(self, x, **kargs):        code = self.encoder(x)        out = self.decoder(code)        return out

登录后复制

数据集

介绍

作为演示，这里使用柯达提供的 24 张无版权测试照片作为训练样本，数据集比较小

当然使用更多的图片作为数据进行模型训练效果会更佳

样例图像如下：

Paddle MS-SSIM：训练一个用于图像压缩的自编码器 - 游乐网

数据集代码实现

In [ ]

class ImageDataset(Dataset):    def __init__(self, root, transform=None):        self.root = root        self.transform = transform        self.images = list(os.listdir(root))        self.images.sort()    def __getitem__(self, idx):        img = Image.open(os.path.join(self.root, self.images[idx]))        if self.transform is not None:            img = self.transform(img)        return img,     def __len__(self):        return len(self.images)

登录后复制

模型训练

损失函数

因为 SSIM 和 MS-SSIM 指数越高越好，而网络训练时一般使用的是最小化优化的方式所以需要使用 1 减去算出来的 SSIM 或 MS-SSIM 指数作为网络训练的损失函数In [ ]

class MS_SSIM_Loss(MS_SSIM):    def forward(self, img1, img2):        return 100*(1 - super(MS_SSIM_Loss, self).forward(img1, img2))class SSIM_Loss(SSIM):    def forward(self, img1, img2):        return 100*(1 - super(SSIM_Loss, self).forward(img1, img2))

登录后复制

训练参数

In [ ]

def get_argparser():    parser = argparse.ArgumentParser()    parser.add_argument("--ckpt", default=None, type=str,                        help="path to trained model. Leave it None if you want to retrain your model")    parser.add_argument("--loss_type", type=str,                        default='ms_ssim', choices=['ssim', 'ms_ssim'])    parser.add_argument("--batch_size", type=int, default=24)    parser.add_argument("--log_interval", type=int, default=1)    parser.add_argument("--total_epochs", type=int, default=200)    return parser

登录后复制

模型训练与评估

In [ ]

def test(opts, model, val_loader, epoch):    save_dir = os.path.join('results', 'epoch_%d' % epoch)    if not os.path.exists(save_dir):        os.mkdir(save_dir)    model.eval()    cur_score = 0.0    metric = ssim if opts.loss_type == 'ssim' else ms_ssim    with paddle.no_grad():        for i, (images, ) in enumerate(val_loader):            outputs = model(images)            # save the first reconstructed image            cur_score += metric(outputs, images, data_range=1.0)            Image.fromarray((outputs*255).squeeze(0).detach().numpy().astype('uint8').transpose(1, 2, 0)).save(os.path.join(save_dir, 'recons_%s_%d.webp' % (opts.loss_type, i)))        cur_score /= len(val_loader.dataset)    return cur_scoreif not os.path.exists('results'):    os.mkdir('results')opts, unparsed = get_argparser().parse_known_args()# datasettrain_trainsform = transforms.Compose([    transforms.RandomCrop(size=512, pad_if_needed=True),    transforms.RandomHorizontalFlip(),    transforms.RandomVerticalFlip(),    transforms.ToTensor(),])val_transform = transforms.Compose([    transforms.CenterCrop(size=512),    transforms.ToTensor()])train_loader = DataLoader(    ImageDataset(root='datasets/kodak', transform=train_trainsform),    batch_size=opts.batch_size, shuffle=True, num_workers=0, drop_last=True)val_loader = DataLoader(    ImageDataset(root='datasets/kodak', transform=val_transform),    batch_size=1, shuffle=False, num_workers=0)print("Train set: %d, Val set: %d" %        (len(train_loader.dataset), len(val_loader.dataset)))model = AutoEncoder(C=128, M=128, in_chan=3, out_chan=3)# optimizeroptimizer = Adam(parameters=model.parameters(),                    learning_rate=1e-4,                    weight_decay=1e-5)# checkpointbest_score = 0.0cur_epoch = 0if opts.ckpt is not None and os.path.isfile(opts.ckpt):    model.set_dict(paddle.load(opts.ckpt))else:    print("[!] Retrain")if opts.loss_type == 'ssim':    criterion = SSIM_Loss(data_range=1.0, size_average=True, channel=3)else:    criterion = MS_SSIM_Loss(data_range=1.0, size_average=True, channel=3)#==========   Train Loop   ==========#for cur_epoch in range(opts.total_epochs):    # =====  Train  =====    model.train()    for cur_step, (images, ) in enumerate(train_loader):        optimizer.clear_grad()        outputs = model(images)        loss = criterion(outputs, images)        loss.backward()        optimizer.step()        if (cur_step) % opts.log_interval == 0:            print("Epoch %d, Batch %d/%d, loss=%.6f" %                    (cur_epoch, cur_step, len(train_loader), loss.item()))    # =====  Save Latest Model  =====    paddle.save(model.state_dict(), 'latest_model.pdparams')    # =====  Validation  =====    print("Val...")    best_score = 0.0    cur_score = test(opts, model, val_loader, cur_epoch)    print("%s = %.6f" % (opts.loss_type, cur_score))    # =====  Save Best Model  =====    if cur_score > best_score:  # save best model        best_score = cur_score        paddle.save(model.state_dict(), 'best_model.pdparams')        print("Best model saved as best_model.pdparams")

登录后复制

图像压缩演示

使用下列代码即可对图像进行压缩和解压缩当然由于使用的训练图片较少，恢复的图像画质损失比较严重In [84]

# 读取测试图像dataset = ImageDataset(root='datasets/kodak', transform=val_transform)x = dataset[0][0][None, ...]print('input shape:', x.shape, 'size:', x.size)# 图像编码压缩hidden = model.encoder(x)print('hidden shape:', hidden.shape, 'size:', hidden.size)# 图像解码解压缩y = model.decoder(hidden)print('output shape:', y.shape, 'size:', y.size)# 图像张量还原函数def postprocess(tensor):    tensor = (tensor*255).squeeze().cast(paddle.uint8).numpy()    img = tensor.transpose(1, 2, 0)    return img# 图像还原拼接对比img_y = postprocess(y)img_x = postprocess(x)img = np.concatenate([img_x, img_y], 1)img = Image.fromarray(img)img.save('test.webp')from IPython import displaydisplay.Image('test.webp')

登录后复制

input shape: [1, 3, 512, 512] size: 786432hidden shape: [1, 128, 32, 32] size: 131072output shape: [1, 3, 512, 512] size: 786432

登录后复制

来源:https://www.php.cn/faq/1411335.html

上一篇：语句生成之胡编乱造哲理和爱情生成器

下一篇：【CVPR2021】DDRNets:高效实时车道分割算法

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

极豆科技携手银联等四方全球首发车载智能体支付场景新体验

4月2日，中国银联在上海正式推出《智能体支付开放协议框架》（Agentic Payment Open Protocol，简称APOP框架），并顺利完成首批生产环境下的系统验证交易。这一创新协议旨在推

时间：2026-04-07 09:07

全新揽巡震撼上市，智驾安全双在线，七重礼遇助力开启精彩旅程

一汽-大众近日推出全新揽巡SUV，以“硬核澎湃大五座”定位强势进军市场，最新指导价24 69万元起。这款车型专为追求自由、注重品质且不愿妥协的新生活“探险家”打造，通过力量感与未来感融合的设计语言、

时间：2026-04-07 09:01

OpenClaw如何自定义SKILL

1 Skills机制概述提起OpenClaw的Skills机制，不少人可能会把它想象成传统意义上的可执行插件。其实，它的内涵要更精妙一些。简单说，Skills本质上是一套基于提示驱动的能力扩展机制。它并不是一个可以独立“跑”起来的程序模块，而是通过一份结构化描述文件（核心就是那个SKILL m

时间：2026-04-07 08:53

OpenClaw 是什么？OpenClaw 详细使用教程及中转 API 优缺点

OpenClaw 是什么？OpenClaw 详细使用教程及中转 API 优缺点分析最近，圈子里的讨论热度明显聚焦在一个词上：OpenClaw。无论是开发者，还是正在推进AI项目的团队，都在打听它。这工具到底是什么？能解决什么问题？配上那些中转Token，真的就高枕无忧了吗？今天，我们就来把这事儿掰

时间：2026-04-07 08:02

OpenClaw教程（八）—— 为OpenClaw打造记忆系统

上一篇我们探讨了OpenClaw的自动化能力，今天的话题，可以说是一个AI助手能否真正“进化”的关键——如何为它构建一套有效的记忆系统。随着助手能力的不断扩展，它每天处理的事务会越来越多，产生的信息量也会急剧增长：例行检查、异常发现、你下达的各种指令……如果没有记忆，每次唤醒它都如同面对一张白纸，

时间：2026-04-07 07:21

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

传《糖豆人》将于10月停服官方迅速辟谣

米家扫地机器人滤网清理用什么工具

《刺客信条：影》4月8日更新追加升级版PSSR支持

比官方预告时间更早：消息称“超级小爱”PC 客户端正推送给小米笔记本 Pro 14

《洛克王国世界》异色精灵保底机制详解-异色保底次数与高效刷取方法

斯文·文克分享拉瑞安《神界》开发细节

《异种航员2》游戏后期技巧详解-后期攻略分享

OpenClaw 3.31 审批问题总结

旗舰配置 25000Pa 吸力 + 95℃ 自清洁：石头 A30 CE 洗地机 1278 元免费用 15 天

我国首台国产海上平台燃气轮机，中国航发“太行 7”进军国际高端市场

戴尔电脑恢复出厂设置方法：关键按键与操作解析

电脑睡眠后黑屏唤醒失败？5步教你有效解决重启问题

解压视频文件，电脑播放必备指南

电脑蓝屏解决全攻略：排查与修复系统崩溃教程

文件夹无法删除怎么办？4个强制删除方法

惠普战系列办公主机组装指南：打造高效办公电脑配置

解决鼠标滚轮失灵：3步自查与修复窍门【修复指南】

电脑误删文件恢复方法：4种实用方案找回数据

电脑截屏快捷键大全：快速截屏的3种高效方法

电脑多显示器设置指南：3步轻松扩展工作桌面

OpenAI急招安全负责人：年薪高达55.5万美元及股权

台积电3纳米芯片报价受AI热潮驱动，预计下月上涨

AI伪证呈堂被训诫：原告伪造带水印电子证据案

小米空气净化器十年领跑：线上销量第一，出货量破2500万台

蚂蚁阿福声明：问答结果无任何广告推荐与商业排名

AI机器人辅助精神科诊疗，潜在关联病例解析

我国AI地震监测达国际先进水平，核心技术实现实时预警

荣耀ROBOT PHONE真机体验：全球首款机器人手机亮相当下

全球首台30兆瓦纯氢燃气轮机投用，清洁能源新突破

一汽与零跑深化合作：共探中国新能源汽车新路径

Paddle MS-SSIM：训练一个用于图像压缩的自编码器

引入

参考资料

自编码器

准备

安装 Paddle MS-SSIN

导入必要的包

模型实现

GDN / IGDN 模块

编码器

解码器

自编码器

数据集

介绍

数据集代码实现

模型训练

损失函数

训练参数

模型训练与评估

图像压缩演示

极豆科技携手银联等四方 全球首发车载智能体支付场景新体验

全新揽巡震撼上市，智驾安全双在线，七重礼遇助力开启精彩旅程

OpenClaw如何自定义SKILL

OpenClaw 是什么？OpenClaw 详细使用教程及中转 API 优缺点

OpenClaw教程（八）—— 为OpenClaw打造记忆系统

极豆科技携手银联等四方全球首发车载智能体支付场景新体验