【飞桨论文复现赛-图像描述生成】Soft-Attention
发布时间:2025-07-25 编辑:游乐网
本文为百度论文复现赛第四期相关论文的复现代码介绍。依赖paddlepaddle-gpu2.1.2、python3.7,在coco2014数据集训练,给出复现精度。介绍了模型背景、结构、数据集,还说明了运行、安装依赖、训练及评估的步骤,提及代码解释相关内容。
前言
本项目为百度论文复现赛第四期《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文复现代码。
依赖环境:
paddlepaddle-gpu2.1.2python3.7代码在coco2014数据集上训练,复现精度:
模型背景及其介绍
参考论文:《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文链接
近年来,人们提出了几种生成图像描述生成方法。这些方法中许多都是基于递归神经网络,并受到了成功使用序列与神经网络进行机器翻译训练的启发。图像描述生成非常适合机器翻译的编码器-解码器框架,一个主要原因是它类似于将图像翻译成句子。
受机器翻译和目标检测工作的启发,论文首次提出在图像描述模型中引入注意力机制,大幅度提高了模型的性能,并可视化展示了注意力机制如何学习将目光固定在图像的显著目标上,整体框架如下。
第一步:输入Image到模型中。
第二步:经过CNN进行卷积提取Image特征信息最终形成Image的特征图信息。
第三步:attention对提取的特征图进行加权求和,作为后续进入LSTM模型的输入数据,不同时刻的attention数据会受到上一时刻状态输出数据的影响。
第四步:LSTM模型最终输出caption。
模型结构:
参考项目地址链接
复现论文代码github地址链接
数据集
coco2014 image captions 论文,采用“Karpathy” data split 论文
数据集总大小:123287张
训练集:113287张
验证集:5000张
测试集:5000张
标签文件:dataset_coco.json
运行
解压预训练数据到work/data/目录下
预训练数据包括: 通过vgg19提取的coco2014图像网格特征、cocotalk.json、cocotalk_label.h5
通过命令 !python3 scripts/prepro_feats.py 和 !python3 scripts/prepro_labels.py 获得
In [5]%cd /home/aistudio/work/data/!unzip -oq /home/aistudio/data/data106948/coco_data_vgg.zip登录后复制
/home/aistudio/work/data登录后复制
解压用于训练测试的文件到work/目录下
In [6]%cd /home/aistudio/work/!unzip -oq /home/aistudio/data/data107076/coco-caption.zip登录后复制
/home/aistudio/work登录后复制
安装依赖库
In [ ]%cd /home/aistudio/work/!pip install -r requirements.txt登录后复制
训练
训练的日志和模型会放到work/log/目录下
In [ ]!python3 train.py登录后复制
评估
我已经将训练好的model_best.pdparams文件放在了work/log目录下
加载work/log目录下保存的训练模型数据进行验证
In [ ]%cd /home/aistudio/work/!unzip -oq /home/aistudio/data/data107076/log.zip登录后复制 代码解释In [ ]
!python3 eval.py登录后复制
相关阅读
MORE
+- ftp扫描工具跨平台 ftp扫描工具多系统支持 07-25 电脑如何清理重复文件 查找并删除重复内容技巧 07-25
- WPS表格数据可视化 动态图表制作永久免会员 07-25 如何让豆包AI生成代码 豆包AI编程辅助教程 07-25
- 豆包AI如何实现自动化 豆包AI自动化编程指南 07-25 AI语言转视频结合AI字幕工具实现完整内容自动化 07-25
- 【飞桨论文复现赛-图像描述生成】Soft-Attention 07-25 ftp扫描工具免费版 ftp扫描工具付费版区别 07-24
- ftp扫描工具命令行 ftp扫描工具图形界面 07-24 ftp扫描工具集成 ftp扫描工具api接口 07-24
- PP-YOLO:RoboMaster 战车装甲板检测(2.0 版本) 07-24 AI语言转视频如何批量生成内容?适合做账号矩阵的技巧 07-24
- 多模态AI模型如何并行处理 多模态AI多线程优化方案 07-24 如何通过豆包AI进行代码生成 豆包AI编程辅助场景分享 07-24
- 如何用豆包AI生成Python数学计算代码 07-24 deepseek学习神器推荐 deepseek怎么辅助写作业 07-24
- 人体姿态估计:基于飞桨复现Hourglass 07-24 论文复现:WS-DAN细粒度分类问题经典之作 07-24