苹果发布Pico-Banana 40万数据集,为AI图像模型注入新素材
苹果公司近日发布了一款名为Pico-Banana-400K的图像研究数据集,其中收录了40万张经过精心编辑处理的图像样本。该数据集致力于为文本引导的图像编辑技术提供更可靠的训练与评估资源。这项研究成果已通过预印本平台arXiv正式发表,完整数据集也在GitHub上向全球研究人员开放。该项目采用非商业性研究许可协议,允许学术机构自由使用相关素材,但明确禁止商业用途。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
研究团队指出,当前图像编辑领域虽然技术发展迅猛,但在开放研究方面仍面临数据质量参差不齐的挑战。现有数据集大多依赖专用模型合成的生成数据,或仅包含有限的人工筛选样本,普遍存在领域偏差、编辑类型分布不均以及质量控制不一致等问题。这些局限严重制约了高质量图像编辑模型的迭代发展。为突破这一瓶颈,苹果团队决定构建一个覆盖更全面、更具代表性的标准化数据集。
Pico-Banana-400K的构建始于对OpenImages数据集中真实照片的筛选,确保样本涵盖人物、物体及含文字场景等多样化内容。研究团队设计了35种不同类型的图像编辑指令,并将其归纳为八大类别,包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(将人物转化为卡通风格)、场景构成与多主体编辑(改变天气条件)、对象级语义修改(移动物体位置)、图像缩放(放大画面尺寸)等。
在编辑流程中,研究人员将原始图像与编辑指令同时输入谷歌的Gemini 2.5 Flash图像模型(内部代号Nanon-Banana)进行生成,随后利用Gemini 2.5 Pro模型对结果进行自动评估,确保编辑效果既精准遵循指令要求,又具备良好的视觉品质。只有通过双重验证的样本才会被纳入最终数据集。
该数据集不仅包含单轮编辑样本,还涵盖了多轮连续编辑序列,以及"偏好对比"样本——即成功与失败编辑结果的成对对比,帮助模型学习区分理想与不良输出。这种设计使Pico-Banana-400K能够支持更复杂的编辑任务,并为模型训练提供更丰富的反馈信号。
尽管研究团队承认Nanon-Banana模型在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的核心目标是为下一代文本引导图像编辑模型建立坚实可靠的基础。通过公开这一资源,苹果希望推动图像编辑领域的技术进步,同时为研究人员提供更高效的工具,以应对开放研究中面临的数据挑战。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
智己LS8官宣刘翔代言,4月16上市,预售45分钟破万辆
智己汽车于2026年4月3日正式宣布,奥运冠军、世界著名田径运动员刘翔成为品牌全新代言人。与此同时,该品牌旗舰科技SUV智己LS8定于4月16日正式上市。智己LS8已于3月26日启动预售,提供大五座
浏览器联盟质疑微软Edge开机自启妨碍用户选择权
2026年4月3日,针对微软在Windows 11系统中测试Edge浏览器开机自动启动功能一事,由多家主流浏览器厂商共同组建的浏览器选择联盟发布正式声明,对该做法提出明确质疑。声明指出,微软将Edg
PowerShell 7.6 LTS延期发布原因及流程优化举措详解
微软PowerShell高级产品经理Jason Helmick于2026年4月3日发布博文,就PowerShell 7 6长期支持版本推迟发布一事作出详细说明,并同步公布了多项流程优化举措,旨在提升
京东团购4月3日上线,百城百万门店试运营,满99元赠茶饮券
京东团购于2026年4月3日正式推出,首批试点覆盖全国百余个城市,超百万家餐饮门店同步启动试运营。用户打开京东App,进入“秒送”频道,点击“美食团购”入口,即可浏览涵盖正餐、快餐、烧烤、咖啡及茶饮
新石器无人车迈入全域运营,RaaS模式降本增效覆盖50城
新石器无人车近期披露其即时配送业务运行数据:青岛运营车队单日订单峰值达6500单,累计完成配送服务逾150万次,总行驶里程突破4000万公里。公司宣布全面迈入全域规模化运营新阶段,计划于2026年内
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

