当前位置: 首页
科技数码
模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

热心网友 时间:2025-09-14
转载

9 月 12 日,在 2025 Inclusion・外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了 AI 发展,AI 也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。

论坛由中国人工智能学会、上海交通大学与蚂蚁集团联合主办。

高质量数据构建成为大模型发展的新突破口

数据作为智能时代的第一引擎,正从辅助角色转变为核心驱动力。

复旦大学教授肖仰华指出,当前大模型发展正面临严峻的 " 数据墙 " 困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

复旦大学教授肖仰华

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从 100 亿个 token 的财经语料中仅筛选 20% 的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升 1.7%。

上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。

海天瑞声 CEO 李科从产业实践角度分享了全球 AI 数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。

上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足 VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。

技术创新推动数据价值释放

作为第二引擎,AI 技术正在深刻改变数据处理和利用的方式。

光轮智能总裁杨海波表示,具身智能对数据的需求量是大语言模型和自动驾驶的上千倍。合成数据是实现具身智能 Scaling Law 的重要基础,他强调,合成数据必须满足四个必备条件:真实的物理交互、人在环的示范、场景足够丰富和数据闭环验证。杨海波认为,“站在岸上学不会游泳”,机器人需要进入物理可交互的环境去获取物理世界反馈来优化模型。

蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代 RL 训练法则应该从“对与错”转向“好与更好”。" 他探索的 "Rubric 即 Reward" 新机制,只需使用 5k 数据和 1 万条评分标准构建高效 RL 回路,就能摆脱对海量 SFT 数据的依赖,实现 " 品味对齐 "。他说,这种方法可以在人文、创意、情感等领域实现风格化生成,去除 " 机器味道 "。

LanceDB CTO 徐磊分享了开源多模态数据湖的创新实践。他介绍,与传统的 Parquet、ORC 等格式不同,新设计的 Lance 格式既是文件格式又是表格式,具备零拷贝数据演化和高效点查两大核心特性。徐磊举了 Runway ML 的案例,该公司将 PB 级视频数据导入 Lance 后,能够像使用 SQL 一样简单管理,实现 30 多位 AI 工程师在同一个主表上并行进行特征工程迭代。

NVIDIA 互联网解决方案架构高级总监陈川介绍了驱动生成式 AI 的高效数据处理创新,分享了从文本到多模态的 GPU 加速解决方案。

在圆桌讨论环节,专家围绕展开 Data Infra 的重构与机遇深入讨论。专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决已经面临的问题,再定义则是着眼于未来,解决可能面临的问题。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

本次论坛展示了数据与 AI 双引擎协同发展的最新成果,为智能时代数据基础设施建设提供了参考和实践路径。与会专家表示,只有实现数据与 AI 的深度融合,建立完善的数据标准体系和质量评估框架,才能真正释放智能技术的巨大潜力,推动智能时代向更高层次发展。

来源:https://www.ithome.com/0/882/742.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
三星Tab S12平板配置曝光 搭载天玑9500芯片

三星Tab S12平板配置曝光 搭载天玑9500芯片

科技圈再度曝出重磅消息。近日,有科技媒体通过深度解析三星AI Core应用的底层代码,发现了一项关键进展:三星正在针对联发科天玑9500旗舰芯片进行系统适配。这一发现强烈暗示,三星下一代旗舰平板Galaxy Tab S12系列,极有可能搭载这款性能强劲的处理器。 线索隐藏在应用代码深处。在三星AI

时间:2026-05-16 08:50
三星HBM技术曝光将如何改变手机AI未来

三星HBM技术曝光将如何改变手机AI未来

移动端AI的算力竞争,正从云端加速向设备端延伸。近日,韩国媒体Etnews的一则报道披露了三星电子在该领域的最新动向:公司正在积极研发下一代HBM技术,旨在为智能手机、平板电脑等移动设备带来更强大的端侧AI性能。 据行业内部消息,三星此次技术攻关的核心是一种名为“多层堆叠FOWLP”的先进封装方案。

时间:2026-05-16 08:50
上海工程师如何引领未来产业从技术突破到规模化发展

上海工程师如何引领未来产业从技术突破到规模化发展

人工智能浪潮正以前所未有的深度与广度重塑全球产业格局,一场围绕未来产业的国际竞赛已经全面展开。在这场决定未来的角逐中,工程师的角色变得空前关键——他们是将前沿技术突破转化为现实生产力的核心驱动力,是连接实验室创新与产业落地的关键桥梁。 2026年5月14日,上海卓越工程师交流峰会暨2025年度“SH

时间:2026-05-16 08:49
力箭一号火箭成功发射百颗卫星创下新纪录

力箭一号火箭成功发射百颗卫星创下新纪录

2026年5月15日,中国商业航天发展迎来一项重要里程碑。中科宇航自主研发的力箭一号遥十三运载火箭,在东风商业航天创新试验区成功点火升空,顺利将“中国有戏号”等五颗卫星精准送入预定轨道,圆满完成“一箭五星”发射任务。 此次发射对力箭系列火箭具有历史性意义。作为力箭一号的第13次飞行任务,也是整个力箭

时间:2026-05-16 08:49
中国科研团队突破火箭垂直回收技术 实现低空稳定飞行

中国科研团队突破火箭垂直回收技术 实现低空稳定飞行

5月14日,广东省阳江市成功完成了一项具有里程碑意义的低空飞行试验。由中山大学航空航天学院吴志刚教授团队自主研发的“逸仙-3号”面对称可重复使用火箭,圆满实现了从发射升空、精准悬停、机动调整到最终垂直平稳降落在预定区域的全流程验证。此次试验标志着我国首枚由高校完全独立研制成功的面对称可回收液体火箭诞

时间:2026-05-16 08:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程