五种水面垃圾目标检测数据集分享 YOLO系列适用

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

五种水面垃圾目标检测数据集分享 YOLO系列适用

热心网友时间：2026-06-06

转载

水面5种垃圾目标检测数据集分享（适用于YOLO系列深度学习分类检测任务）

前言

您沿着河边散步时，映入眼帘的可能不是碧波荡漾的绿水青山，而是漂浮的塑料袋、易拉罐、矿泉水瓶——这些水面垃圾正成为水域环境监测最棘手的难题之一。尤其是在城市河道、自然湖泊和水库中，水面漂浮物不仅破坏生态平衡、污染水质，还会阻隔水流、破坏景观，甚至威胁水生生物的生存。

传统的人工巡检与打捞方式，本质上依赖人眼盯梢和船只作业，效率极低、成本高昂，且难以覆盖广阔水域。让一小队人员奔波一整日，可能连小型水库的边角都无法彻底巡查，更不必说实时监测与数据分析，那几乎是一种奢望。

近年来，计算机视觉与深度学习技术飞速发展，为水面垃圾自动检测提供了全新解决方案。基于图像识别的智能监测系统能够实时识别垃圾分类与分布情况，协助环保部门开展科学治理、数据分析乃至辅助决策。

为推动该方向的研究与应用，我们构建并公开了一套水面垃圾目标检测数据集——包含8000+张已标注图像，专为YOLO系列目标检测模型训练量身定制。本文将从数据集概述、背景意义、详细信息、应用场景到训练指南逐步拆解，方便研究者、开发者和环保领域专业人士快速上手。

一、数据集概述

1. 数据集基本信息

本数据集面向水体环境监测与漂浮垃圾智能识别场景——旨在训练和评估基于深度学习的目标检测模型（如YOLO、Faster R-CNN、SSD等）。数据涵盖河道、湖泊、水库等多种真实水域背景，场景丰富多样，实战价值显著。

核心特性如下：

数据规模：8000+张高质量水面图像
数据划分：
- 训练集（Train）：约6400张
- 验证集（Valid）：约800张
- 测试集（Test）：约800张
目标类别：5类（瓶子、易拉罐、纸盒、纸张、塑料制品）
标注类型：目标检测（Bounding Box）
标注格式：YOLO格式
适用模型：YOLO系列、Faster R-CNN、SSD、DETR等主流检测模型

2. 类别信息

类别ID	英文类别名	中文含义	描述
0	bottle	瓶子	各种材质的瓶子，如塑料瓶、玻璃瓶等
1	can	易拉罐	金属易拉罐，如饮料罐、啤酒罐等
2	carton	纸盒	纸质包装盒，如牛奶盒、果汁盒等
3	paper	纸张	各种纸张，如报纸、纸巾、包装纸等
4	plastic	塑料制品	其他塑料制品，如塑料袋、塑料盒等

二、背景与意义

1. 水体污染的严重性

水体污染究竟有多严重？打个比方，水面垃圾如同水域的“毒瘤”，破坏生态平衡、恶化水质、毁掉景观，还暗藏安全隐患——垃圾大量堆积可能堵塞河道，大幅增加治理成本。具体危害包括：

生态破坏：漂浮垃圾扰乱水生生态链，直接影响水生物生存
水质恶化：垃圾分解产生有害物质，污染整片水体
景观破坏：谁都不愿看到公园湖面上漂着塑料瓶与泡沫箱
安全隐患：大堆垃圾可能堵住河道，引发内涝风险
经济损失：清理需要大量人力物力，治理成本直线飙升

2. 水面垃圾的来源

这些水面漂浮物从何而来？主要来源包括：生活污水带来的废弃物、工业废水排出的杂物、农业使用的塑料薄膜和农药包装、游客随手丢弃的包装袋，以及船舶作业时掉落的垃圾。每一种类型都难以有效应对。

3. 传统监测方法的局限

传统方法是什么？人工巡检、人工打捞——听起来简单，实际却问题重重：

效率低：人眼紧盯水面，一天最多监测几百米就疲惫不堪
成本高：需要专门人员、船只、设备投入
覆盖范围有限：大湖、大河根本难以全面巡查
实时性差：发现问题时，垃圾可能早已漂远
数据不完整：全靠手工记录，漏报、错报频发

4. AI技术的应用价值

AI技术恰好能够弥补这些短板。深度学习结合计算机视觉，让水面垃圾检测实现：

自动化检测：摄像头拍摄，模型自动识别，无需人员持续盯屏
高处理效率：每秒可处理数十帧图像
高精度：准确区分瓶子、易拉罐、纸张等不同垃圾类别
实时性：系统支持7×24小时在线监测
大范围覆盖：多台摄像头组网，能够覆盖整个水域
数据驱动：检测数据自动入库，用于分析与决策

本数据集的发布，正是推动AI技术在该领域落地的关键一步。

三、数据集详细信息

1. 数据采集

数据全部来源于真实水面环境，涵盖城市河道、乡村小河、自然湖泊、人工湖、饮用水水库、灌溉水库以及池塘和水渠。采集手法丰富多样——不同角度（正面、侧面、俯视）、不同距离（近、中、远）、不同天气（晴、阴、雨）、不同时段（早、中、晚、夜）。

这不是随意拍摄，而是专门考虑了各种光照条件与场景变化，让模型能够学习到更鲁棒的特征，避免换个环境就“翻车”。

2. 环境因素覆盖

为增强数据多样性，采集时特别应对了以下硬核挑战：

水面反光：强阳光下水面反光刺眼
水波干扰：风吹水动，垃圾形状飘忽不定
遮挡：垃圾相互叠压，部分目标被遮挡
背景复杂：与水草、倒影、泡沫混合难以分辨
水质差异：从清澈见底到浑浊发黄，各种情况均有收录

这些因素使数据集更贴近真实场景，训练出的模型也更“抗造”。

3. 数据标注

标注采用经典Bounding Box方式，由环保专家与计算机视觉专业人员共同完成，确保标注既专业又统一。标注格式采用YOLO标准格式：

class_id x_center y_center width height

示例：

0 0.462 0.587 0.1 0.15

所有坐标均已归一化（范围0~1），可直接喂给YOLOv5、YOLOv7、YOLOv8、YOLOv9、Faster R-CNN、SSD、DETR等模型，无需额外处理。

4. 数据结构

数据集目录结构严格遵循YOLO训练规范：

dataset/ ├── train │ ├── images │ └── labels ├── valid │ ├── images │ └── labels ├── test │ ├── images │ └── labels

YOLO数据配置文件：

train: train/imagesval: valid/imagestest: test/imagesnc: 5names: ['bottle', 'can', 'carton', 'paper', 'plastic']

拿到即可直接使用，省去格式转换的繁琐步骤。

5. 数据质量控制

在质量把控上，我们进行了多轮严格筛选：

图像清晰度筛选：模糊、分辨率低的图片直接淘汰
标注准确性复核：标注框必须精确覆盖垃圾区域
多样性检查：保证各类场景、环境因素的样本数量均衡
重复数据清理：删除内容相同或高度相似的图片

这些措施有效降低了噪声，为模型训练提供了干净的基础。

四、数据集应用流程

下面是典型的应用流程，从数据获取到模型部署：

六、模型训练指南

1. 训练准备

动手训练前，请先做好以下准备工作：

安装依赖库：ultralytics、numpy、pandas、matplotlib等
配置数据集路径：确保路径正确，避免程序找不到文件
准备训练环境：强烈建议使用GPU加速，CPU训练将等待极其漫长
设置训练参数：根据显存大小调整批次大小与学习率

2. 训练示例（YOLOv8）

以YOLOv8为例，代码简洁高效：

from ultralytics import YOLOmodel = YOLO("yolov8n.pt")model.train(data="data.yaml",epochs=100,imgsz=640,batch=16)

训练完成后直接进行预测：

results = model.predict("test.jpg")print(results[0].boxes)

3. 训练技巧

想让模型取得更优效果，以下技巧值得尝试：

数据增强：Mosaic、随机缩放、随机翻转全部用上，提升泛化能力
多尺度训练：采用不同尺度输入，使模型适应不同大小的垃圾
学习率调度：采用余弦退火策略，动态调整学习率
批次大小：根据显存容量确定，一般8到16较为稳定
模型选择：从小模型开始跑，再逐步换用更大模型
评估指标：重点关注mAP50与mAP50-95
早停策略：验证集性能不再提升时立即停止，防止过拟合

4. 数据预处理建议

正式训练前，建议执行以下预处理操作：

数据增强：
- 随机水平翻转与垂直翻转
- 随机旋转（-10°到10°）
- 随机缩放（0.8-1.2倍）
- 亮度、对比度、饱和度调整
- 随机裁剪
- 高斯模糊
图像标准化：
- 像素值归一化到[0,1]或[-1,1]
- 统一调整图像大小至640×640
- 去除图像噪声
标注处理：
- 检查标注文件完整性
- 确认标注框准确覆盖垃圾区域
- 处理奇异值

七、实践案例

案例一：智慧河道监测系统

应用场景：城市河道管理部门

实现步骤：

在河道关键位置部署摄像头，实时采集水面图像
使用本数据集训练的YOLOv8模型分析视频流
系统自动识别并分类水面垃圾
检测到垃圾时触发预警，并定位
生成垃圾分布热力图，分析聚集区域
根据结果制定清理计划
跟踪清理效果，评估治理成效

效果：

垃圾检测准确率超过85%
巡检效率提升90%
垃圾清理成本降低40%
河道环境明显改善
管理决策更有据可依

案例二：无人船水面垃圾巡检系统

应用场景：环保服务公司

实现步骤：

无人船定期巡检水域
船上摄像头与传感器采集图像
训练好的模型实时分析
自动记录垃圾位置与类型
生成垃圾分布报告，指导清理作业
可选配垃圾收集装置，实现自动清理

效果：

巡检覆盖面积扩大10倍
检测效率提高80%
人工成本降低60%
垃圾清理更精准
服务范围扩大，收入增加

八、模型选择建议

根据硬件条件与应用场景，推荐如下选型：

场景	推荐模型	优势
边缘设备部署	YOLOv8n、YOLOv8s	模型小，推理快，适合实时监测
服务器部署	YOLOv8m、YOLOv8l	精度高，适合复杂场景与大量图像
资源受限环境	NanoDet、MobileDet	计算量小，适合低性能设备
高精度需求	YOLOv8x、RT-DETR	精度顶尖，适合高标准场景
学术研究	Faster R-CNN、Mask R-CNN	适合算法研究与对比实验