模型之变引发数据质变,2025 外滩大会探讨数据处理新范式
9 月 12 日,在 2025 Inclusion・外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了 AI 发展,AI 也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
论坛由中国人工智能学会、上海交通大学与蚂蚁集团联合主办。
高质量数据构建成为大模型发展的新突破口
数据作为智能时代的第一引擎,正从辅助角色转变为核心驱动力。
复旦大学教授肖仰华指出,当前大模型发展正面临严峻的 " 数据墙 " 困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从 100 亿个 token 的财经语料中仅筛选 20% 的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升 1.7%。
上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。
海天瑞声 CEO 李科从产业实践角度分享了全球 AI 数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。
上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足 VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。
技术创新推动数据价值释放
作为第二引擎,AI 技术正在深刻改变数据处理和利用的方式。
光轮智能总裁杨海波表示,具身智能对数据的需求量是大语言模型和自动驾驶的上千倍。合成数据是实现具身智能 Scaling Law 的重要基础,他强调,合成数据必须满足四个必备条件:真实的物理交互、人在环的示范、场景足够丰富和数据闭环验证。杨海波认为,“站在岸上学不会游泳”,机器人需要进入物理可交互的环境去获取物理世界反馈来优化模型。
蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代 RL 训练法则应该从“对与错”转向“好与更好”。" 他探索的 "Rubric 即 Reward" 新机制,只需使用 5k 数据和 1 万条评分标准构建高效 RL 回路,就能摆脱对海量 SFT 数据的依赖,实现 " 品味对齐 "。他说,这种方法可以在人文、创意、情感等领域实现风格化生成,去除 " 机器味道 "。
LanceDB CTO 徐磊分享了开源多模态数据湖的创新实践。他介绍,与传统的 Parquet、ORC 等格式不同,新设计的 Lance 格式既是文件格式又是表格式,具备零拷贝数据演化和高效点查两大核心特性。徐磊举了 Runway ML 的案例,该公司将 PB 级视频数据导入 Lance 后,能够像使用 SQL 一样简单管理,实现 30 多位 AI 工程师在同一个主表上并行进行特征工程迭代。
NVIDIA 互联网解决方案架构高级总监陈川介绍了驱动生成式 AI 的高效数据处理创新,分享了从文本到多模态的 GPU 加速解决方案。
在圆桌讨论环节,专家围绕展开 Data Infra 的重构与机遇深入讨论。专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决已经面临的问题,再定义则是着眼于未来,解决可能面临的问题。

本次论坛展示了数据与 AI 双引擎协同发展的最新成果,为智能时代数据基础设施建设提供了参考和实践路径。与会专家表示,只有实现数据与 AI 的深度融合,建立完善的数据标准体系和质量评估框架,才能真正释放智能技术的巨大潜力,推动智能时代向更高层次发展。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
极兔牵手顺丰真相:合作细节与市场影响深度解析
今年1月中旬,物流圈上演了备受瞩目的一幕:当国内快递行业因增速放缓而步入存量整合期时,主导中高端市场的老牌物流服务商顺丰控股,与主打电商件的极兔速递联合宣布达成了一项投资交易金额达83亿港元的相互持
力箭二号遥一运载火箭成功发射空间试验飞船
记者从公司获悉,3月30日19时00分,中科宇航力箭二号遥一运载火箭·国际纺都号在东风商业航天创新试验区成功发射,将新征程01卫星、新征程02卫星和天视卫星01星精准送入预定轨道,发射任务取得圆满成
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
美议员为何急于拉黑中国机器人却暗留后门?
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

