当前位置: 首页
AI
Monodepth2-基于自监督学习的单目深度估计模型

Monodepth2-基于自监督学习的单目深度估计模型

热心网友 时间:2025-07-22
转载
Monodepth2是ICCV2019发表的自监督单目深度估计方法,为Monodepth升级版。其结合双目图像与单目序列自监督方法,含深度预测和位姿变换预测网络,引入多种优化策略获当时SOTA。本文介绍其复现过程,用KITTI数据集,经640x192训练及1024x320微调,abs_rel达0.104,还含数据集、代码结构等信息。

monodepth2-基于自监督学习的单目深度估计模型 - 游乐网

1. 简介

Monodepth2是通过自监督学习进行单目深度估计的一种方法,发表于ICCV2019,是发表于CVPR2017的Monodepth的升级版。Monodepth基于标定过的双目图像,通过预测中间变量disparity(视差)来对一侧图像进行变换重构另一侧图像,并以重构损失进行训练,有关Monodepth的复现可以参考我的另一个项目。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Monodepth2-基于自监督学习的单目深度估计模型 - 游乐网

Monodepth2在此基础上加入了比较流行的单目序列自监督方法,即通过预测单目相邻帧之间的位姿变换与深度图来重构相邻帧。Monodepth2将两种训练方式统一到了基于一个位姿变换的框架下,上图为其的框架结构及针对部分问题的改进。框架中包含两个网络,一个是深度预测网络,给定一张图片,预测深度图,这个也是我们最后想得到的网络;另一个是位姿变换预测网络,给定一对图片,预测两者之间的位姿变换,一般给定的是相邻的前后两帧,此网络用于辅助训练;训练时选取左相机某一帧作为基准,计算深度图,其前后两帧及右相机同帧图像进行作为参考,计算位姿变换(右相机位姿变换为常数,不需要进行预测),利用预测得到的深度图将基准图像变换为点云、进行位姿变换、再重投影得到重构图像计算重构损失。

除此之外,Monodepth2引入了一些新trick来提升性能:

使用resnet预训练模型,极为显著地提升性能。对于每个像素点,计算由不同视角进行重构所产生误差的最小值作为loss,使得loss对于受遮挡的物体更加鲁棒。将不同尺度的视差图resize到原始尺寸对原图进行,显著降低了深度图中不合理的纹理特性。自动mask掉会动的物体,使得收到监督的像素都满足静态场景的假设。

综合这些trick,Monodepth2得到了当时自监督深度估计的SOTA效果,但仍然与监督方法有着一定差距。

以下为本项目模型在KITTI测试图像上的预测结果:

Monodepth2-基于自监督学习的单目深度估计模型 - 游乐网

Monodepth2-基于自监督学习的单目深度估计模型 - 游乐网

论文: Digging Into Self-Supervised Monocular Depth Estimation

参考repo: monodepth2

2. 数据集

KITTI是一个自动驾驶领域常用的数据集,其由配置了传感器的汽车于德国卡尔斯鲁厄采集,数据中包含了双目彩色图像、深度图像、雷达点云等传感数据,并提供目标检测、实例分割等常见CV任务的标签。本项目使用AI Studio上的KITTI压缩数据集,全部数据可从此处下载。在训练过程中只需要双目图像,所以只解压jpg_images.tar.*即可。

KITTI数据集存在两种划分,一种是最新标准划分,称为KITTI划分,另一种是Eigen et. al.提出的Eigen划分方式。领域内更常用Eigen划分进行评估。由于在评估时需要点云数据来计算深度图的groundtruth,解压全部点云数据集占用硬盘空间过大,我们对Eigen划分的测试集进行了单独的打包,可在此处下载。

3. 复现精度

首先训练输入分辨率为640x192的模型:加载resnet18预训练模型,batch size 12,epoch 20,优化器Adam,初始学习率1e-4,15个epoch后减小为1e-5。原文和仓库并没有提供最优模型的选择方法,我们保存验证集loss最低的模型为最优模型。此时得到的最优模型abs_rel为0.109,未达到验收精度。

之后将以640x192为输入分辨率的最优模型在1024x320的输入分辨率上进行finetune,batch size 4,epoch 2,优化器Adam,学习率5e-5。得到的模型abs_rel为0.104,达到验收标准。

注意:为了固定数据增强的随机性,项目中使用setup_seed对Dataloader中的所有worker进行了初始化,这就导致了结果是和worker的数量相关的,想要完全复现项目中的结果,第一部分训练的num_workers=16,第二部分训练的num_workers=4。

训练日志链接:640x192 train log, 1024x320 finetune log, 640x192 test log, 1024x320 test log

权重文件链接:pytorch resent18 pretrained weight, our best 640x192 weights, our best 1024x320 weights

4. 快速开始

Step 1:准备数据

In [1]
!cat ~/data/data15348/jpg_images.tar.* | tar -x -C ~/data/!rm ~/data/data15348/jpg_images.tar.*
登录后复制In [2]
!tar -xzf ~/data/data124009/eigen_test.tgz -C ~/data
登录后复制

Step 2:配置环境

In [3]
%cd /home/aistudio/work/monodepth2-paddle!pip install -r requirements.txt
登录后复制

Step 3:训练

In [ ]
    # train the model at resolution of 640 x 192    !python train.py --model_name mono+stereo_model_640x192 --frame_ids 0 -1 1 --use_stereo --data_path ~/data/kitti         --log_dir logs --num_workers 4 --weights_init weights/resnet18-pytorch
登录后复制In [7]
# finetune the best 640 x 192 model at resolution of 1024 x 320!python train.py --model_name mono+stereo_model_1024x320 --frame_ids 0 -1 1 --use_stereo --data_path ~/data/kitti     --height 320 --width 1024  --load_weights_folder weights/best_640x192/     --log_dir logs --num_workers 4 --batch_size 4 --num_epochs 2 --learning_rate 5e-5
登录后复制In [11]
!python evaluate_depth.py --load_weights_folder weights/best_1024x320/ --eval_stereo --data_path ~/data/eigen --num_workers 4
登录后复制In [ ]
!python demo.py --image_path assets/test_image.webp --load_weights_folder weights/best_1024x320/
登录后复制

5. 代码结构

├── assets # demo图像├── datasets # 数据集定义├── logs # 日志文件夹├── network # 网络定义├── splits # 数据集数据划分文件├── weights # 存放权重文件├── LICENSE├── README.md├── demo.py # 单张图像深度估计脚本├── evalute_depth.py # 测试脚本├── export_gt_depth.py # 计算groundtruth├── kitti_utils.py # 与KITTI数据集相关的功能函数├── layers.py # 基础模块定义├── options.py # 超参数定义├── trainer.py # 训练方式定义├── train.py # 训练入口脚本├── requirements.txt # 依赖包└── utils.py # 功能函数
登录后复制

6. 复现心得

paddle.grid_sample的反向传播存在Bug,当grid.stop_gradient=False时,x.stop_gradient必须为False,否则会报错,已提交PaddlePaddle issue。Paddle Hub中的Resnet预训练参数与PyTorch Hub的不同,使用Paddle的预训练参数在640x192上训练最好只能达到0.113,加载PyTorch的预训练模型可达到0.109。
来源:https://www.php.cn/faq/1421600.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

时间:2026-04-07 14:55
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟

时间:2026-04-07 14:49
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧

时间:2026-04-07 14:43
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

时间:2026-04-07 14:37
美国犹他州启动新试点项目:AI为患者开具精神类药物处方

美国犹他州启动新试点项目:AI为患者开具精神类药物处方

IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药

时间:2026-04-07 14:30
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程