【飞桨论文复现赛-图像描述生成】Soft-Attention
本文为百度论文复现赛第四期相关论文的复现代码介绍。依赖paddlepaddle-gpu2.1.2、python3.7,在coco2014数据集训练,给出复现精度。介绍了模型背景、结构、数据集,还说明了运行、安装依赖、训练及评估的步骤,提及代码解释相关内容。

前言
本项目为百度论文复现赛第四期《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文复现代码。
依赖环境:
paddlepaddle-gpu2.1.2python3.7代码在coco2014数据集上训练,复现精度:
模型背景及其介绍
参考论文:《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文链接
近年来,人们提出了几种生成图像描述生成方法。这些方法中许多都是基于递归神经网络,并受到了成功使用序列与神经网络进行机器翻译训练的启发。图像描述生成非常适合机器翻译的编码器-解码器框架,一个主要原因是它类似于将图像翻译成句子。
受机器翻译和目标检测工作的启发,论文首次提出在图像描述模型中引入注意力机制,大幅度提高了模型的性能,并可视化展示了注意力机制如何学习将目光固定在图像的显著目标上,整体框架如下。
第一步:输入Image到模型中。
第二步:经过CNN进行卷积提取Image特征信息最终形成Image的特征图信息。
第三步:attention对提取的特征图进行加权求和,作为后续进入LSTM模型的输入数据,不同时刻的attention数据会受到上一时刻状态输出数据的影响。
第四步:LSTM模型最终输出caption。
模型结构:
参考项目地址链接
复现论文代码github地址链接
数据集
coco2014 image captions 论文,采用“Karpathy” data split 论文
数据集总大小:123287张
训练集:113287张
验证集:5000张
测试集:5000张
标签文件:dataset_coco.json
运行
解压预训练数据到work/data/目录下
预训练数据包括: 通过vgg19提取的coco2014图像网格特征、cocotalk.json、cocotalk_label.h5
通过命令 !python3 scripts/prepro_feats.py 和 !python3 scripts/prepro_labels.py 获得
In [5]%cd /home/aistudio/work/data/!unzip -oq /home/aistudio/data/data106948/coco_data_vgg.zip登录后复制
/home/aistudio/work/data登录后复制
解压用于训练测试的文件到work/目录下
In [6]%cd /home/aistudio/work/!unzip -oq /home/aistudio/data/data107076/coco-caption.zip登录后复制
/home/aistudio/work登录后复制
安装依赖库
In [ ]%cd /home/aistudio/work/!pip install -r requirements.txt登录后复制
训练
训练的日志和模型会放到work/log/目录下
In [ ]!python3 train.py登录后复制
评估
我已经将训练好的model_best.pdparams文件放在了work/log目录下
加载work/log目录下保存的训练模型数据进行验证
In [ ]%cd /home/aistudio/work/!unzip -oq /home/aistudio/data/data107076/log.zip登录后复制 代码解释In [ ]
!python3 eval.py登录后复制
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
北大与字节开源实时长视频生成模型Helios详解
Helios是什么 在AI视频生成领域,如何兼顾生成速度与画面质量一直是核心挑战。近期,由北京大学联合字节跳动等顶尖团队共同研发的Helios模型,为这一难题提供了突破性的解决方案。这款拥有140亿参数的大模型,仅需单张H100 GPU,就能以高达19 5 FPS的实时速度生成分钟级长视频。其卓越性
浪潮信息开源多模态基础模型Yuan3.0 Ultra详解
Yuan3 0 Ultra是什么 在通往通用人工智能的探索中,模型规模与性能往往紧密关联。然而,浪潮信息YuanLab ai团队最新开源的Yuan3 0 Ultra模型,为我们提供了全新的视角。这个总参数量高达1 01万亿的巨型模型,并非盲目追求参数扩张,而是创新地采用了混合专家架构,将每次推理的激
OpenAI发布GPT‑5.4旗舰AI模型 专为专业工作场景打造
GPT‑5 4是什么 如果说此前的AI模型还停留在“聪明地聊天”,那么GPT-5 4的登场,则标志着AI正式迈入了“可靠地干活”的新阶段。OpenAI将其定位为“专为专业工作设计的最强前沿模型”,这个定义绝非虚言。它首次将高阶推理、专业编程、原生计算机操作、深度网页搜索以及百万级别的上下文处理能力,
掌阅科技泡漫平台一站式AI漫剧生成工具详解
泡漫是什么 如果你留意近两年内容创作领域的变革,会发现一个显著趋势:人工智能正以前所未有的深度重塑内容生产流程。而“泡漫”,正是这股AI浪潮中一个极具代表性的创新平台。 简而言之,泡漫是掌阅科技旗下推出的一站式AI漫剧智能生成平台。其核心目标非常明确——运用前沿AI技术彻底革新漫画与短剧的创作模式,
AI面试模拟工具:智能追问与深度解答备考指南
播面是什么 如果你已经厌倦了对海量文字资料进行机械记忆,并在面试关键时刻感到无从说起,那么“播面”这一创新学习模式,或许能为你打开全新的备考视角。简而言之,播面是一个将经典技术面试题目转化为系统化音频课程的知识平台。其核心理念非常清晰:通过聆听,掌握面试精髓。 试想一下,那些涉及Java、Sprin
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

