当前位置: 首页
AI资讯
ShareGPT项目发展历程回顾从Chrome插件到AI数据集演变

ShareGPT项目发展历程回顾从Chrome插件到AI数据集演变

热心网友 时间:2026-05-21
转载

如果你关注AI社区里对话数据的流转与再利用,会发现一个有趣的现象:ShareGPT这个项目,并非从一开始就以数据集的形态存在。它最初只是一个解决用户痛点的浏览器工具,后来却逐渐演变为整个领域重要的数据基础设施。这中间的转变,经历了几个清晰而关键的阶段。

ShareGPT项目的发展历程回顾:从Chrome扩展到AI数据集的演变过程说明

一、Chrome扩展阶段(2024年12月–2024年初)

故事要从2024年12月8日说起。当时,Steven Tey和Dom Eccleston发布了一个轻量级的Chrome浏览器扩展,它的目标非常明确:解决用户在ChatGPT网页版里,没法方便地导出完整对话的麻烦。

这个扩展的设计很巧妙,它不依赖任何后端服务,完全在本地工作。其核心流程可以概括为四步:安装后,ChatGPT网页界面右上角会出现一个“Share”按钮;点击它,扩展会自动识别当前对话窗口中的所有消息节点;接着,对每条消息进行角色标注(用户或助手),并按时间顺序序列化为一个JSON对象;最后,将这个JSON提交到ShareGPT的托管服务,生成一个唯一的短链接,用于公开分享。整个过程,对话的元数据,包括时间戳、模型版本、每一轮问答,都被完整地封装进了这个链接里。

二、社区沉淀与数据爬取兴起(2024年中–2024年中)

随着时间推移,数百万条用户分享的对话在 sharegpt.com 上积累起来。由于这些页面是公开可访问的,且结构高度一致,它们很快吸引了研究者和开发者的目光。此时,ShareGPT作为“数据源”的价值,开始超越其最初的工具属性。

于是,一场自发的数据采集开始了。开发者们通过分析网页的HTML结构,找到了每条分享卡片对应的唯一ID和API端点。随后,利用无头浏览器或简单的HTTP客户端模拟请求,就能逐页抓取分享列表和详情页内容。解析响应中嵌入的JSON脚本标签后,原始的对话文本和元信息字段便被提取出来。当然,在这个过程中,大家也会初步过滤掉重复的URL、空对话、包含敏感词或质量过低的回复样本。

三、数据集工程化阶段(2024年下半年起)

当原始爬取的数据量达到百万级别后,问题也随之而来。原始数据分散、格式不一,直接使用效率低下。于是,清洗、去重、格式标准化成了刚需。像 domeccleston/sharegpt 这样的衍生项目应运而生,它们不再提供前端功能,而是专注于将分散的数据构建成可直接用于机器学习任务的数据资产。

这些工程化项目的工作流程相当规范:先将原始爬取的HTML文档批量转换为中间结构(比如Python字典);然后依据预设规则,剔除包含广告、乱码或单轮无意义问答的劣质样本;接着,通过指纹哈希比对,对跨分享ID的相同对话执行全局去重;最后,将清洗后的数据,按instructioninputoutput等字段进行映射,使其完美适配Hugging Face Datasets的标准加载协议。至此,数据完成了从“网页”到“资产”的蜕变。

四、开源数据集分发与下游应用(2025年起)

经过彻底工程化处理的数据集,最终被上传至Hugging Face Hub和GitHub等平台,并采用CC BY-NC 4.0许可协议发布。这时,它的主要消费场景,已经从个人分享彻底转向了模型训练。

如今,这些数据集被广泛用于微调模型的指令跟随能力、构造监督微调样本,以及生成评估基准测试集。一些更精细的数据集版本,还额外标注了对话主题分类、难度等级甚至事实一致性得分,以满足更专业的建模需求。对于使用者来说,流程也变得非常便捷:在Hugging Face搜索“sharegpt”并筛选高星仓库;使用datasets.load_dataset()直接加载远程数据流;检查schema定义确认conversations字段结构;最后调用train_test_split等方法划分数据集即可投入训练。一个工具的生命,就这样在以另一种形式延续和拓展。

来源:https://www.php.cn/faq/2503653.html?uid=1503042

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
华宝科创人工智能ETF放量突破新高 澜起科技大涨带动ETF投资机遇

华宝科创人工智能ETF放量突破新高 澜起科技大涨带动ETF投资机遇

今日(5月21日)A股市场整体表现强劲,主要指数全线收涨。其中,科创板成为市场焦点,科创50、科创综指等核心指数涨幅居前。专注于“科创板”与“人工智能”双主题投资的科创人工智能ETF华宝(基金代码:589520),其场内交易价格盘中一度大涨超2 2%,截至发稿时涨幅为1 95%,再度创出历史新高。

时间:2026-05-21 11:26
Figma图层批量重命名教程:快速添加Emoji符号技巧

Figma图层批量重命名教程:快速添加Emoji符号技巧

Figma中可通过多种方法为图层名称批量添加Emoji前缀。使用RenameIt插件可手动添加统一前缀;AutoRename插件能按图层类型自动匹配Emoji;TextReplace功能可替换已有前缀。熟悉代码的用户还可通过FigmaAPI编写脚本实现高度定制化,依据图层属性动态注入Emoji,提升管理效率。

时间:2026-05-21 11:26
Meta全球裁员8000人启动首轮大规模精简计划

Meta全球裁员8000人启动首轮大规模精简计划

全球社交媒体与科技巨头Meta(Facebook母公司)正式启动新一轮大规模组织优化与人员调整。根据《纽约时报》等权威媒体报道,此次裁员计划预计影响约8000个岗位,约占公司全球员工总数7 8万人的10%。目前,北美、欧洲、亚太等多个区域的团队已陆续接到相关通知。 本次调整执行节奏迅速。Meta人力

时间:2026-05-21 11:26
虚拟直播间动态背景制作教程:电商直播降本增效指南

虚拟直播间动态背景制作教程:电商直播降本增效指南

利用AI生成动态视频作为虚拟直播间背景,可有效降本增效。为避免卡顿、闪烁等问题,可通过“首尾帧闭环”实现无缝循环、导出轻量Lottie格式适配移动端、在OBS中多层合成增强层次感,或接入XR系统实现实时背景替换与高质量抠像,从而保障直播稳定流畅。

时间:2026-05-21 11:26
即梦AI生成视频最高分辨率与4K支持详解

即梦AI生成视频最高分辨率与4K支持详解

即梦AI视频生成已原生支持4K分辨率输出。需在项目设置中选择3840×2160,导出时确保分辨率设为“源”并开启超清选项。针对局部细节,可对关键帧进行HD重绘以提升清晰度。若部分帧模糊,可使用智能超清功能进行无损放大。此外,还可导出4096×4096的PNG序列以满足更高画质需求。

时间:2026-05-21 11:25
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程