当前位置: 首页
AI教程
火山引擎数据湖新范式:Daft与Lance驱动多模态AI数据处理

火山引擎数据湖新范式:Daft与Lance驱动多模态AI数据处理

热心网友 时间:2026-05-28
转载

随着人工智能技术全面渗透各行各业,数据作为AI系统的核心燃料,其处理范式正经历关键转型。传统数据处理架构在多模态、实时性要求极高的AI应用场景中逐渐显露瓶颈。本文将深入解析,为应对AI时代的数据挑战,新一代数据湖技术如何实现系统性升级。

AI 时代数据湖面临的场景变革与技术挑战

传统数据湖主要服务于结构化数据的批量分析与处理。然而,当AI成为驱动业务创新的核心动力时,数据湖的角色从“数据仓库”演变为“智能燃料库”,其在存储、计算与管理层面均面临全新考验。

首先是存储层面的挑战。AI应用依赖图片、视频、音频、文本等多模态非结构化数据。数据湖不仅需要高效存储这些海量“大文件”,更关键的是优化数据读取性能。与过去追求极致存储成本压缩不同,AI训练与推理场景要求极低的数据访问延迟,IO速度成为新的关键指标。

计算范式同样发生根本性转变。以GPU为代表的异构计算成为主流,数据处理的主导权从数据平台团队向算法研发团队转移。相应地,数据处理接口也从传统的SQL向更受算法工程师欢迎的Python Dataframe范式演进。

数据管理的范畴也在急速扩展。治理对象不再局限于数据库表,还需涵盖文件、机器学习模型、特征、函数等多元资产。而上层应用场景,也从商业智能分析快速扩展到AI智能体、具身智能、实时推理等前沿领域。

面向AI场景的数据湖新架构:湖计算Daft与湖存储Lance

面对上述挑战,基于传统技术堆栈的解决方案往往顾此失彼:存储多模态数据易引发IO放大问题,而将原始数据直接抛给计算层又会带来巨大的内存与网络传输压力。是否存在一种端到端的优化方案?

火山引擎LAS(LakeHouse AI Service)团队提出的答案是:构建专为AI设计的数据湖,其核心是“湖计算引擎Daft”与“湖存储格式Lance”的深度协同。

LAS产品全景图 (LakeHouse AI Service)

Daft:面向多模态AI数据的分布式计算引擎

Daft是一个基于Ray构建的分布式Dataframe计算框架,专门针对AI数据处理中的四大痛点设计:

  1. 弹性分布式扩展:AI数据集常达TB/PB级。Daft借助Ray的分布式运行时,能让单机开发的代码无缝扩展至大规模集群,简化分布式编程复杂度。
  2. 统一的多模态数据处理:无需在Pandas、Spark等不同框架间切换。无论是处理图像元数据、音频波形还是文本标签,在Daft的统一Dataframe接口下均可完成。
  3. 智能的异构资源调度:AI流水线中,数据预处理(CPU密集型)与模型训练推理(GPU密集型)任务交织。Daft能在单一工作流内智能调度CPU与GPU资源,实现算力高效利用。
  4. 融合跨团队协作:为大数据团队保留SQL查询能力,同时为算法团队提供原生Python API。Daft在接入层实现语言统一,降低了数据与算法团队间的协作壁垒。

从技术架构看,Daft设计精良:底层依赖Ray实现资源弹性;中间层融入了大量分布式计算优化经验;而使用Rust重写的查询优化器与执行引擎,则在保持Python易用性的同时,获得了接近原生的执行性能。

其核心应用场景体现为:

  • Python脚本的分布式化:通过无状态或有状态用户自定义函数(UDF),可将单机数据清洗、模型推理脚本轻松转化为分布式任务。有状态UDF尤其适合推理场景,支持模型在Worker上一次性加载、重复使用,大幅降低开销。
  • CPU-GPU流水线协作:通过Ray,Daft可实现CPU集群进行数据预处理(如解码、增强),并通过内存或高速队列直接流式供给GPU集群进行训练,有效解决因数据加载慢导致的GPU闲置问题。
  • 多模态数据的延迟加载:这是Daft的关键创新。例如处理图文对数据时,传统方法需预先下载全部图片至内存再进行关联,效率低下。Daft支持通过URL或行标识符进行逻辑关联,仅在训练需要时按需加载并处理特定图片。这种“懒加载”机制,结合其对视频抽帧、图像生成缩略图等操作的优化,能极大减少不必要的IO与内存消耗。

Lance:为多模态AI数据设计的高效列式存储格式

强大的计算引擎需配以高效的存储格式。Lance正是为高效存储与访问多模态数据而生。

它重点解决了三个核心问题:

  1. 列式存储带来的高压缩比:将大数据领域成熟的列存思想应用于多模态数据。实际测试中,上百GB的Tensor数据经Lance压缩后可能仅占数GB,存储成本显著降低。
  2. 大小数据列的统一管理:可将大对象(如图片、视频)与其小尺寸元数据(如标签、标注)存储于同一系统中,管理简便,并支持高性能的点查询,非常适合需要随机采样训练数据的AI场景。
  3. 零拷贝的Schema演进:AI模型迭代频繁,特征与标签常需增减。Lance支持以“零拷贝”方式新增数据列,无需重写已有数据文件,使Schema变更几乎无感,效率极高。

Daft与Lance如何协同?二者形成完美互补。早期,Daft通过URL关联外部数据实现延迟计算。而Lance则将多模态数据以高效列式格式存储于系统内部,并使用Row ID作为高效标识符。两者通过Apache Arrow内存格式无缝对接,最终让用户既能享受Daft延迟计算的灵活性,又能获得Lance列式存储的高压缩与快速查询优势,构成从存储到计算的完整高性能闭环。

实战效果:Daft+Lance方案在真实业务中的表现

任何技术方案的价值都需通过实践验证。以下两个案例展示了该组合在复杂场景中的落地成效。

自动驾驶场景:端到端数据处理效率提升70%

某领先自动驾驶公司原有技术栈为Argo+K8S调度搭配LMDB存储。该方案存在明显瓶颈:K8S调度难以高效协调CPU预处理与GPU训练任务,中间数据需频繁落盘,形成性能瓶颈;更严重的是,当GPU利用率超过95%时,会出现指令调用阻塞,直接影响模型训练进度。

采用Daft+Lance方案后,调度层替换为Daft on Ray,存储层升级为Lance。新方案实现了数据在内存中的流水线处理,CPU与GPU任务可独立弹性伸缩、无缝衔接,消除了中间落盘开销。Lance统一管理原始感知数据,支持高速点查采样。最终,该客户端到端数据处理流程耗时缩短了70%,模型迭代速度获得质的飞跃。

大语言模型预训练场景:攻克海量图文数据关联稳定性难题

另一客户在进行大语言模型预训练时,面临海量网页图文数据关联的挑战。原有方案使用Webdataset存储,并用Spark进行大规模Join操作,即使尝试了远程Shuffle等优化,仍受困于作业稳定性差、处理效率低下等问题。

迁移至Daft+Lance方案后,问题迎刃而解。不再需要进行全量数据的物理Join,而是先通过Row ID进行逻辑关联。仅在模型训练读取批次时,才按需加载对应的图片数据。这一改变彻底消除了大规模Shuffle带来的稳定性风险,数据处理速度与可靠性均得到显著提升。

未来展望:深化多模态支持,共建开源生态

目前的成果仅是起点。火山引擎LAS团队未来的规划聚焦于两点:一是持续增强Daft对复杂多模态数据类型(尤其是视频)的原生支持,以满足自动驾驶、机器人等场景对视频抽帧、片段训练的迫切需求;二是进一步深化Daft与Lance的生态集成,打造更紧密、性能更优的“计算-存储”协同体。

技术的演进离不开开放协作。围绕Daft和Lance构建的开源社区正在蓬勃发展,我们期待更多开发者与行业伙伴加入,共同推动面向AI时代的数据基础设施不断向前演进。

来源:https://juejin.cn/post/7551341114424000550

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
MediSearch医疗问答平台:科学解答与专家健康指南

MediSearch医疗问答平台:科学解答与专家健康指南

MediSearch产品介绍 在信息过载的当下,如何从海量网络资讯中甄别出可靠、有科学依据的健康答案,已成为公众的普遍困扰。MediSearch这款应用精准地瞄准了这一核心需求。其定位明确:致力于成为一个基于循证医学的医疗健康信息搜索引擎,通过整合权威专家知识与最新研究成果,为用户提供关于疾病、症状

时间:2026-05-28 12:40
Allchemy全方位解析与高效使用教程

Allchemy全方位解析与高效使用教程

Allchemy是什么 在药物研发这一高精尖领域,科学家们始终在探寻能够加速发现进程的“催化剂”。如今,一款名为Allchemy的人工智能工具正扮演着这一角色。它本质上是一个资源感知型AI系统,其设计目标极为宏大:旨在覆盖从初始资源到最终药物设计的全链条流程,实现端到端的智能辅助。 当前,该工具已在

时间:2026-05-28 12:38
AI一键生成PPT大纲方法汇报技巧与实用范文指南

AI一键生成PPT大纲方法汇报技巧与实用范文指南

使用情景 职场汇报最令人困扰的环节是什么?绝大多数人的答案都会指向构思逻辑框架和制作演示文稿。无论是年度工作总结、项目复盘陈述,还是各类业务汇报,理清思路、搭建结构往往消耗大量时间和心力。许多时候,我们脑海中有丰富的素材,却难以高效地组织成条理清晰的呈现内容。 如今,人工智能技术的应用带来了全新的解

时间:2026-05-28 12:37
AI写作助手测评:科技如何重塑写作方式

AI写作助手测评:科技如何重塑写作方式

在信息极度密集的当下,写作早已超越单纯的情感表达,成为高效交流与深度沟通的核心手段。随着AI技术的飞速演进,智能写作助手正全面重塑内容创作生态。那么,这些工具真的能让我们的文章质量更上一层楼吗?带着这一疑问,我们展开了一场针对多款主流AI写作工具的横向评测,深入探究其真实表现。 1 技术视角:AI

时间:2026-05-28 12:37
WPS AI高效导出PPT大纲 快速生成汇报内容指南

WPS AI高效导出PPT大纲 快速生成汇报内容指南

无论是工作汇报、年终总结还是项目展示,PPT都是职场人士不可或缺的呈现工具。然而,真正的挑战往往不在于寻找精美的模板,而在于构建一个逻辑严谨、具有说服力的内容框架——即PPT大纲。特别是在时间紧迫的年终汇报或项目复盘场景中,一个清晰有力的提纲,直接决定了汇报的成败与效果。 值得庆幸的是,当前AI技术

时间:2026-05-28 12:36
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程