当前位置: 首页
科技数码
模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB

模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB

热心网友 时间:2026-03-29
转载

“语料数据正成为人工智能发展的重要胜负手。”

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

3月28日,在2026全球开发者先锋大会(GDPS)“语料筑基、智生时代”主题论坛上,上海市经济和信息化委员会副主任潘焱指出,当前人工智能发展正在加快进入应用落地阶段,特别是随着大模型、智能体等技术的持续演进,产业竞争正在从“拼算法”向“拼数据”转变,模型能力要提升,行业应用要落地,智能体要真正走进真实场景,越来越离不开高质量的语料。

本次论坛由全球开发者先锋大会组委会指导,全球开发者先锋大会组委会办公室、上海库帕思科技有限公司、上海人工智能实验室主办。

会上,由库帕思牵头推进的模塑申城语料普惠计划2.0正式发布,在原有基础上,将进一步聚焦“普惠、创新、链接”的总体要求,在原有的基础上,重点围绕科学智能重点提供“高真值、多模态、过程化”语料数据供给服务,并面向OPC(一人公司)群体提供更加轻量化、低成本的语料服务支撑。

据介绍,语料普惠计划2.0将为中小企业、高校师生、创新创业者提供低成本高质量的可持续语料供给,计划到2027年底链接服务500个创新主体,打造300个稀缺数据集,普惠提供语料价值不少于1.5亿,语料规模超过10PB(拍字节,数据存储量单位,1PB=1024TB)。


澎湃新闻记者 秦盛 摄

上海人工智能实验室青年科学家何聪辉指出,从通用数据走向科学数据,面临着数据封闭、标准缺失、模态复杂等多重挑战。

他表示,与互联网上公开传播的通用数据不同,大量科学数据属于私域数据,封闭程度极高。同时,科学数据模态丰富、专业性强、格式多样,且不同模态之间缺乏对齐,导致AI难以理解。此外,大量暗数据尚未形成有效的语料化,基础设施的不完备也使得数据和模型更多服务于人类科学家,而非AI智能体。

为破解这一问题,何聪辉提出打造科学数据基座“Sciverse”。该体系分为三层:最底层是通识层,包含书籍、文献、教材、代码等共识数据;中间是对齐层,通过人类可理解的方式将不同模态的数据(如序列与结构、注释等)进行对齐;最上层是演化层,包含轨迹数据、推理数据等Agent友好的数据,旨在让AI超越简单的问答,真正成为具备自主发现能力的“AI科学家”。

“如果说过去我们是在‘找油厂’开采原油,那么今天我们的任务是如何把已找到的‘油’精炼出来,这就像一场精细的数据加工工艺,炼数为力。”上海创智学院教授刘鹏飞用比喻解释了当前数据利用的新趋势。

刘鹏飞强调,数据供需矛盾日益凸显,能满足当前AI训练需求的高质量数据越来越少,获取成本也水涨船高。“不夸张地说,现在一条高质量数据的成本可能高达上千美元。”

面对这一挑战,刘鹏飞提出“优化法”的解决思路:“用算力去换数据,本质上就是随着技术能力的提高,变废为宝,把之前被忽略的数据‘捞’起来。这不是简单的数量收集,而是让数据真正可用。”他认为,数据决定了智能的上限和模型的最终能力,未来将是模型与数据“共进化”(co-evolve)的过程,每一代模型的成长都将挖掘出新一代的数据智能。

据介绍,围绕语料数据,上海已形成多层次的语料供给能力、建成了语料运营服务平台、营造了开放协同的产业生态。下阶段,上海将从三方面加强高质量语料供给,培育完善创新生态。

一是聚焦技术发展的新需求,加快数据合成算法、动态价值观知识库的构建、数据投毒过滤算法等语料关键技术的攻关,打造语料全生命周期工具链;二是聚焦行业新应用,借鉴FDE模式(前沿部署工程师模式),深化实施语料专项治理行动,加快构建行业高价值语料,打造服务垂类模型训练的行业语料基座;三是聚焦OPC等新产业形态,打造标准化、轻量化的语料创新产品,打造适配多场景、兼具多专业性的语料服务模式。

来源:https://www.163.com/dy/article/KP709JEB0514R9P4.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
奥迪Q9内饰正式发布 6座7座可选配置丰富设计亮眼

奥迪Q9内饰正式发布 6座7座可选配置丰富设计亮眼

奥迪即将推出其SUV家族的旗舰新作——奥迪Q9。这款基于PPC平台打造的大型豪华SUV,计划于7月29日全球首次亮相。新车将提供包括高效V6、强劲V8以及先进的插电式混合动力在内的多元化动力总成,以满足不同用户的驾驶需求。更令人期待的是,面向性能爱好者的SQ9高性能版本,以及诠释极致奢华的霍希(HO

时间:2026-05-14 09:12
徕芬T2 Pro剃须刀发布:双刀头升级与110分钟长续航,售价549元

徕芬T2 Pro剃须刀发布:双刀头升级与110分钟长续航,售价549元

徕芬T2 Pro电动剃须刀新品发布,现已登陆京东商城。官方指导价为549元,配合部分地区可用的“国补”优惠,最终入手价可低至466 65元。 徕芬T2 Pro剃须刀提供经典银色、灰色、蓝色及群青蓝四款配色。产品延续了品牌标志性的全铝合金机身,采用精密CNC加工工艺,整体质感出众。其具备IPX7级防水

时间:2026-05-14 09:11
2000W电源为AI工作站提供高效供电解决方案

2000W电源为AI工作站提供高效供电解决方案

全汉重磅发布其旗舰级电源产品——FSP2000-57APB 2000W电源。这款新品严格遵循最新的ATX 3 1电源规范,专为满足高性能AI工作站、深度学习平台以及搭载双旗舰显卡的高端游戏台式机的极致供电需求而设计。 在接口配置上,这款电源的设计极具前瞻性。它原生配备了多达三组8-pin CPU供电

时间:2026-05-14 09:11
三星One UI 9.0 Beta测试启动 Galaxy S26系列率先适配

三星One UI 9.0 Beta测试启动 Galaxy S26系列率先适配

三星正式发布基于Android 17深度定制的全新One UI 9 0操作系统,带来从视觉设计到核心功能的全面革新。本次年度大更新旨在为用户提供更流畅、智能和个性化的移动体验。 备受期待的One UI 9 0 Beta测试计划即将正式启动。根据官方安排,测试将首先在韩国、德国、印度、波兰、美国和英国

时间:2026-05-14 09:11
成都企业突破人形机器人核心技术 中国首创新成果

成都企业突破人形机器人核心技术 中国首创新成果

如果说机器人的“身体”决定了其行动范围与操作能力,那么它的“大脑”则决定了其智能水平与适应能力。近日,成都人形机器人创新中心公布了一项关键突破,发布了中国首个基于流形拓扑保持的机器人世界模型(MTPR-WM)。这相当于为机器人构建了一个全新的、更接近人类认知模式的核心决策中枢。 该模型的核心目标非常

时间:2026-05-14 09:10
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程