首页
科技
模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

热心网友
转载
2025-09-14
来源:https://www.ithome.com/0/882/742.htm

9 月 12 日,在 2025 Inclusion・外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了 AI 发展,AI 也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。

论坛由中国人工智能学会、上海交通大学与蚂蚁集团联合主办。

高质量数据构建成为大模型发展的新突破口

数据作为智能时代的第一引擎,正从辅助角色转变为核心驱动力。

复旦大学教授肖仰华指出,当前大模型发展正面临严峻的 " 数据墙 " 困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

复旦大学教授肖仰华

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从 100 亿个 token 的财经语料中仅筛选 20% 的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升 1.7%。

上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。

海天瑞声 CEO 李科从产业实践角度分享了全球 AI 数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。

上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足 VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。

技术创新推动数据价值释放

作为第二引擎,AI 技术正在深刻改变数据处理和利用的方式。

光轮智能总裁杨海波表示,具身智能对数据的需求量是大语言模型和自动驾驶的上千倍。合成数据是实现具身智能 Scaling Law 的重要基础,他强调,合成数据必须满足四个必备条件:真实的物理交互、人在环的示范、场景足够丰富和数据闭环验证。杨海波认为,“站在岸上学不会游泳”,机器人需要进入物理可交互的环境去获取物理世界反馈来优化模型。

蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代 RL 训练法则应该从“对与错”转向“好与更好”。" 他探索的 "Rubric 即 Reward" 新机制,只需使用 5k 数据和 1 万条评分标准构建高效 RL 回路,就能摆脱对海量 SFT 数据的依赖,实现 " 品味对齐 "。他说,这种方法可以在人文、创意、情感等领域实现风格化生成,去除 " 机器味道 "。

LanceDB CTO 徐磊分享了开源多模态数据湖的创新实践。他介绍,与传统的 Parquet、ORC 等格式不同,新设计的 Lance 格式既是文件格式又是表格式,具备零拷贝数据演化和高效点查两大核心特性。徐磊举了 Runway ML 的案例,该公司将 PB 级视频数据导入 Lance 后,能够像使用 SQL 一样简单管理,实现 30 多位 AI 工程师在同一个主表上并行进行特征工程迭代。

NVIDIA 互联网解决方案架构高级总监陈川介绍了驱动生成式 AI 的高效数据处理创新,分享了从文本到多模态的 GPU 加速解决方案。

在圆桌讨论环节,专家围绕展开 Data Infra 的重构与机遇深入讨论。专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决已经面临的问题,再定义则是着眼于未来,解决可能面临的问题。

模型之变引发数据质变,2025 外滩大会探讨数据处理新范式

本次论坛展示了数据与 AI 双引擎协同发展的最新成果,为智能时代数据基础设施建设提供了参考和实践路径。与会专家表示,只有实现数据与 AI 的深度融合,建立完善的数据标准体系和质量评估框架,才能真正释放智能技术的巨大潜力,推动智能时代向更高层次发展。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

高通发布3nm旗舰芯片组,小米首发80TOPS PC处理器

高通在夏威夷举办的一场重要发布会上,正式推出三款采用3nm制程工艺的旗舰芯片,包括新一代旗舰手机SoC芯片骁龙8至尊版(骁龙8 Elite)移动平台、骁龙X2 Elite Extreme和骁龙X2

2025-09-25.

广汽华为合作启境汽车,25年老将刘嘉铭任CEO

近日,广汽集团正式对外宣布,任命刘嘉铭出任其全新品牌“启境”的首席执行官(CEO)。刘嘉铭将全面主导该品牌的战略规划、产品布局、市场开拓及日常运营管理等核心事务。据了解,刘嘉铭是一位在汽车行业深耕超

2025-09-25.

OpenAI测试GPT-5多任务系统:GPT-Alpha内测启动

据海外科技媒体披露,OpenAI近期正在对一款名为“GPT-Alpha”的新型AI智能体开展内部测试。该产品以尚未正式发布的GPT-5模型为技术底座,核心研发方向集中于强化AI的复杂推理能力和工具交

2025-09-25.

市场监管总局要求充电宝召回,保护消费者安全权益

近期,国家市场监督管理总局针对充电宝产品安全隐患问题展开专项治理行动,成立专项督导组统筹全国召回工作。目前已有深圳罗马仕科技有限公司、安克创新科技股份有限公司、小米通讯技术有限公司三家企业启动大规模

2025-09-25.

全新奔驰GLA路试曝光,二代车型换代设计亮点抢先看

梅赛德斯-奔驰近日确认将停产第二代GLA车型,这款自2019年末上市的紧凑型电动跨界车,其最新款为2026款。不过,品牌已启动新一代GLA的研发工作,原型车近期在德国公共道路测试时被多次捕捉到身影。

2025-09-25.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
超级玛丽世界手游
超级玛丽世界手游 动作冒险 2025-09-25更新
查看
怪怪水族馆
怪怪水族馆 休闲益智 2025-09-25更新
查看
停车大师
停车大师 休闲益智 2025-09-25更新
查看
剑二十七游戏
剑二十七游戏 角色扮演 2025-09-25更新
查看
奥奇传说vivo
奥奇传说vivo 角色扮演 2025-09-25更新
查看
龙纹
龙纹 角色扮演 2025-09-25更新
查看
多多自走棋国际服(Auto Chess)
多多自走棋国际服(Auto Chess) 棋牌策略 2025-09-25更新
查看
天使之翼
天使之翼 角色扮演 2025-09-25更新
查看
街头霸王3
街头霸王3 飞行射击 2025-09-25更新
查看
文明曙光手游
文明曙光手游 角色扮演 2025-09-25更新
查看