当前位置: 首页
AI教程
生成式AI项目越来越多,如何高效管理数据?

生成式AI项目越来越多,如何高效管理数据?

热心网友 时间:2026-07-01
转载

这两年,生成式AI项目越来越多,但一个绕不开的问题也随之浮出水面:数据管理的难度直线上升。怎么在满足合规和隐私保护的同时保持高效运转?如何把数据质量提上去,让模型表现更稳定、更可靠?这些挑战几乎成了每个从业者的日常课题。

生成式 AI 项目越来越多,但数据管理要怎么才能高效进行?

最近,InfoQ的《极客有约》栏目联合AICon全球人工智能开发与应用大会,请来了三位重量级嘉宾——ProtonBase首席科学家邵轶琛、矩阵起源研发副总裁赵晨阳,以及阿里国际AI Business高级数据技术专家李海军。趁着大会开幕前,他们进行了一场干货满满的圆桌对话,围绕大模型时代的数据管理与治理,聊了不少真知灼见。

几个核心判断值得先拿出来说:

数据管理正在经历一次关键转变——它不再是简单的存储和处理,而是朝着“数据理解”的推理方向演进。大规模使用离不开有效的数据管理,而真正考验准确性的地方,在于如何从海量数据中精细化到特定领域。数据增广那条路,目前看必不可少。

以下内容根据直播速记整理,略经删减。

邵轶琛首先抛出了问题:“GenAI项目越来越多,数据管理自然变得更复杂。各位在实际工作中有没有发现什么新动向?分享一下观察和体会。”

赵晨阳接过话头:“模型能力在快速提升,但要让它真正展现出强大的多模态能力,高质量的多模态数据是前提。构建数据库时面对的不仅是标准化、规范化的数据,更多是客户那些杂乱无章的原始数据——非结构化、部分结构化,甚至人工解读都很困难的内容。但通过AI介入和工程能力提升,确实能有效解析这些数据并提取价值。GenAI的能力正在帮助企业挖掘出更多数据潜力。”

李海军补充道:“传统领域处理的主要是结构化数据和日志数据,工具也比较成熟,比如阿里的DataWorks、ODPS、Hologres等。但现在处理大模型数据,结构变得更复杂,文本之外还有视频、音频等多模态数据,计算和存储的要求都提高了。技术处理上,过去靠离线计算和实时计算,现在更多要依赖NLP和CV技术,甚至用大模型本身来处理数据。”

邵轶琛提出了一个前瞻性判断:“随着GenAI发展,‘数据管理’这个概念在未来几年会逐渐弱化,取而代之的是‘数据理解’。数据理解分几个层次:最基本的是人工标注,更深一层是深度标注(annotation),简单一些的可以用机械化自动化标注。但目标不止于此——应该是基于真正理解的自动化标注,把人工和自动有机结合起来。机器应该能做到我们希望它理解的事情,但不能教机器去做我们自己都不理解的事。所以,下一阶段的数据管理,本质上是数据理解的推理过程。我们要训练机器去掉标注、去掉机械过程,产生推理性的高质量数据。关注的不仅是数据的状态,还有数据产生的过程。未来几年,有机数据基本会消耗殆尽,人们将更依赖合成数据——从关注状态转变为理解产生过程。”

话题接着转向了数据管理的具体角色:“数据管理在GenAI项目中到底扮演什么角色?常说它影响模型效果,但具体体现在哪些方面?”

赵晨阳回答:“谈GenAI,首先得关注算法架构设计。架构确定后,主要任务就是准备数据进行训练。随着GenAI向多模态发展,数据的多样性和覆盖范围变得很关键。如果模型要处理文本和语音,数据集里的内容就必须保持平衡,防止数据偏差影响结果。推理端也一样,非结构化到结构化数据的处理准确度会影响模型应用表现。所以,数据量、标签、多样性、质量、清洗和预处理的质量,都是训练大模型时必须考虑的因素。”

李海军补充:“数据的量级和质量直接影响模型表现,大规模使用离不开有效的数据管理。数据管理和AI的关系,关键在从大量数据中准确检索。比如在文本数据里找到特定科学数据,或多模态领域里找到特定服饰图片。数据管理必须能提供数据检索和数据标签画像的能力。同时还要满足模型训练需求,包括读写速度、tokenizer速度,以及不同存储计算引擎上的成本和速度考量。”

邵轶琛接着谈到了隐私合规问题:“国内对数据隐私和合规的讨论相对较少,和国情及信息管制有关。但在全球范围,尤其是医疗和金融行业,隐私计算是个高频话题。随着数据量增大,实时数据处理能力怎么突破?传统AI在商品推荐中的应用会不会被新技术取代?数据吞吐量、并发量和实时更新,都成了关键问题。”

随后话题转到数据平台选择:“在AI背景下,大家通常选什么样的数据平台来支撑项目需求?”

李海军给出四个要点:“第一,优秀的数据平台必须支持大规模数据存储和计算,包括结构化和非结构化数据。第二,要满足多层次存储需求,特别是在AI领域——支持高速和低速的分层存储计算,适应不同使用频率的数据和训练需求,确保存储速度跟上推理速度,降低系统响应时间。第三,要解决数据计算问题,管理底层CPU和GPU算力。大模型时代,数据处理不光是传统数据仓库的事,还要结合NLP、CV算法和大模型推理能力。第四,平台要能加速训练过程,包括数据分类检索、tokenizer生成、mix data的自定义能力。在模型应用阶段,平台要支持快速高效的数据检索,还能将模型结果数据回流,更好评估业务价值。”

赵晨阳从工程角度补充:“关键是,应用场景中业务系统产生的数据如何快速反馈到模型中,成为训练数据的一部分。这样模型迭代就能更快速获取数据反馈,进行训练。这对计算层的吞吐量和处理效率提出了高要求。模型训练是个系统性工程,不光是数据平台或AI领域的事。训练阶段可能还涉及分布式文件系统设计。在AI时代,需要考虑如何将所有与数据相关的组件服务于模型,无论是训练还是推理场景。同时,多模态数据的高效存储和检索也很关键。未来模型训练肯定越来越往多模态方向发展,能天然提供多模态存储和查询能力,这点尤为重要。”

邵轶琛总结道:“实时增量训练会成为未来主流,比如PEFT架构、基于LORA的增量微调,可以持续改进模型并验证性能。但如果模型差距过大,很难判断增量训练是提升还是下降。海军提到的系统性工程问题也很关键。目前看到的只是训练和测试部分,真正应用还在发展中。随着AGI成熟,工程上做对的事情会重塑AI和机器学习的应用场景。特征存储也是个重要问题。在电商推荐中,特征存储的实时性很关键。随着AGI发展,特征将变成实时注入的嵌入向量,模型需要理解并转化这些特征,这是个巨大挑战。”

话题转向挑战与难点:“项目落地时,隐私保护、合规性、实时数据处理都是绕不开的坎。各位觉得哪块挑战最大?有没有特别棘手的问题?”

赵晨阳坦言:“处理小模型时,最大最麻烦的问题是隐私保护,也就是模型安全性。这个矛盾在于:如果对训练数据做特殊处理,可能会影响模型效果;但处理不当,模型输出端可能泄露敏感信息。目前选择用合成数据来避免隐私泄露,但这个问题很棘手。模型生成过程是黑盒,无法完全控制整个流程,所以也不能保证100%隐私保护合规。训练时会有针对性措施——比如对数据集中的有毒内容进行保护,防止模型对用户的攻击性或启发性提问做出回应。数据处理时也会尽量抹掉隐私内容,用合成数据替换。但合成数据只能在一定程度上避免隐私泄露,无法保证模型最终不会生成真实的、涉及隐私的内容。目前还没有看到特别好的解决方法。”

李海军从业务实战角度分享:“负责的AI业务部门做了很多实战,对实时数据处理要求很高。以多语言大模型服务为例,有几个核心问题,尤其是降低响应时间(RT)。为了降低RT,普遍用缓存技术,并发展出面向业务的实时干预能力。比如电商语言翻译会遇到一些特别怪异的词语——‘踩屎感’这种标签,中文里大家能理解是指鞋子舒适,但翻译成英文时没有语言模型能准确翻译。面对这类问题,首先通过实时干预能力迅速响应,然后通过数据积累在模型层面训练,不断提升性能。实时数据干预本质上是在处理实时数据流,把电商特定知识转换成准确的本地化表达,并能在模型系统工程中实时使用。推荐系统方面,面临的是如何根据用户查询词推荐商品,这对实时数据处理能力要求非常高,也在探索。”

邵轶琛补充了两个方向:“第一,从商业模式看,未来每个用户都会有自己的虚拟袋里。第二,推理过程中的问题——尤其在高并发和大促期间,系统如何实时处理海量查询。每次查询时,实时特征库的增量必须通过实时过程完成。随着并发度增加,这对底层数据架构是巨大挑战,这是个工程化问题。关键点在于,今天看待‘特征’的方式和过去有很大不同:过去是提问,现在是回答问题。这代表了两个时代的分水岭。未来,不同业务模式的特征工程支撑,会向下抽象成底层数据架构的更高能力。”

话题转到数据质量提升:“数据的获取和清洗是GenAI的‘地基’,直接决定模型表现。各位有没有提升数据准确性和有效性的实战技巧?实际项目中怎么优化的?”

李海军分享了具体方法:“业界有公开方法,比如C4、FineWeb、TxT360等,在文本语言处理上进展显著。处理大规模数据时,开发了上百个计算算子,用于计算重复率、单词数量、字符符号,检测文本通顺性和本地化表达等。处理文档、网页时,灵活组合这些算子,利用数据平台的调度能力高效完成数据清洗。多模态领域主要处理文本、图像、视频的融合,包括转换过滤、实体检测、主体检测、世界知识检测、分割去重等算子。这些方法在预处理阶段显著提升了数据质量和模型训练效果。大规模训练的准确性不需要那么精准,关键在于保证知识的准确性,避免错误信息传播。真正的准确性考验,在于如何从大规模数据中精细化到特定领域。比如在跨境电商,需要处理多语言多模态中的图片翻译等业务,就得从大量数据中筛选出高质量的专业领域数据。提升准确性的方法有两个:一是事前基于算法和规则做特征检测,避免垃圾数据混入,进行粗过滤;二是在模型训练实验过程中,不断检验模型在某基准测试上的表现,反复校验数据。”

赵晨阳从AGI角度谈:“开发AGI时可能不会过分关注准确性指标。但模型应用到具体场景时,准确性就变得至关重要,必须可衡量。实际应用落地过程中,大模型的蒸馏技术很有用——从GPT-4或Claude系列中提取更高质量、有效的数据。这些数据在训练过程中已经经过处理和清洗,质量相当高。前期也可以通过少量人工标注获取数据,再通过泛化模型的知识蒸馏方式,从更大参数模型中提取相关数据。”

邵轶琛强调了数据增广的重要性:“数据增广是一块必须重视的环节,尤其在多模态训练和应用时。实践中得根据应用场景制定不同增广策略,才能实现更好的模型性能和泛化能力。这点很关键。”赵晨阳表示赞同:“数据增广,确实是目前必不可少的一条路。”

话题转到成本与ROI:“数据管理不光是技术问题,也是成本管理问题。大家短期和长期怎么评估数据管理的ROI?存在量化挑战吗?有没有成熟的方法或框架?”

赵晨阳从创业公司视角说:“作为创业公司,在成本上非常谨慎。数据价值的量化评估确实很艰巨,但正通过NLP和大模型方法对数据价值重新评估。存储了大量数据,但价值很难量化,同时还得做大量清洗和治理。可以通过大模型手段判断数据是否对项目有帮助,是否需要管理。但长远看,建立数据量化评估标准仍然很难。”

李海军分享了实际经验:“起初没怎么考虑ROI,但随着成本不断攀升,ROI成了必须面对的问题。首先关注如何在保证可用性和稳定性的基础上优化存储和计算。面对阿里云每天的账单,意识到每条数据的存储和计算都是成本。所以开始对数据分层分级,合理分配冷热数据、高性能和低性能存储,检查是否有长期未使用的数据放在高性能存储上,监控CPU和GPU使用率,确保没有资源浪费,提高任务自动化水平。数据管理的目的是服务大模型训练。会评估数据管理到模型训练的效果,不仅看数据成本,还要看Benchmark上的表现提升。如果模型效果显著提升,ROI自然高。比如开源的多模态大模型OVIS在open Compass榜单上的各项指标不断提升,说明投入是值得的。最后,会关注模型在业务上的表现,比如语言翻译和多模态应用。如果表现足够好,那投入也值得。衡量ROI的标准包括模型在业界通用Benchmark上的效果评估,以及在业务领域内的表现,比如带动GMV提升。”

邵轶琛归纳道:“可以归纳出两个主要框架。第一个是数据增益率(Data Gain Rate),亚马逊内部也类似使用,用来衡量每批新训练数据对模型性能的提升。第二个是海军提到的观点——将数据管理的度量指标与业务目标对接,从而提升效果。”

最后,展望未来:“数据管理与AI的结合,未来会有哪些大变化?大家期待看到什么进展?”

赵晨阳展望:“未来数据管理会更深度融入AI,尤其在数据自动化治理方面——从质量控制、分类标注到生命周期管理,尽量减少人工干预,实现全流程自动化。AI还能帮助数据实现跨平台集成,结合隐私计算需求,利用AI技术遵守GDPR、CDPA等法规,自动化监管训练数据和推理数据。这可能涉及超分隐私、联邦学习等技术。随着AI加入,数据管理可能会更多调度GPU算力,服务数据治理平台,这是重大转变,因为传统数据库存储和计算更多依赖CPU集群。”

李海军从工业界视角:“随着大模型落地应用,数据管理可能有三个显著进步。第一,数据管理与AI模型迭代会更紧密。目前模型训练过程中数据的紧密程度还不够高,未来数据会更多指导模型训练,并反馈到数据上进行补充提升,包括定向数据整理等,融合更紧。第二,数据管理平台会显著发展。回顾过去数据仓库时代,从Oracle进入中国市场到阿里云、华&为云的发展,数据平台一直很蓬勃。但截至目前,针对GenAI的数据管理平台还不够成熟,没有典型代表作。预计未来会出现更成熟的代表。第三,数据管理系统会与整个AI系统工程更紧密结合。不只是提供清洗和训练,而是更紧密地与AI系统功能、生产链路、应用链路、从清洗到训练到上架应用再到效果评估的整个系统结合,以及AI系统发挥的业务价值。”

邵轶琛总结:“今天从不同角度分享的,其实是同一件事——从数据管理的角度看AGI。团队相信,未来5到10年,所有应用都会是AI驱动的。作为AI应用的基础,数据的消费和知识管理至关重要。使命就是让数据管理转变为知识管理。这个行业的使命,也将围绕这一点展开。”

来源:https://www.aiagiai.com/6131.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Continue Windows 本地安装配置教程 2026 最新版 下载地址与环境要求

Continue Windows 本地安装配置教程 2026 最新版 下载地址与环境要求

Continue是面向VSCode与JetBrains的AI编程插件,可连接云端或本地模型。Windows安装需准备编辑器、运行环境与模型服务,配置时应重点处理接口、索引、隐私与性能问题。

时间:2026-07-02 06:42
Tabnine新手从下载到首次运行保姆级安装教程

Tabnine新手从下载到首次运行保姆级安装教程

Tabnine是面向开发者的AI编程工具,适合在常见代码编辑器中辅助补全代码。安装前需确认环境、账号与编辑器版本,首次运行应完成登录、项目索引、补全测试和隐私设置。

时间:2026-07-02 06:41
Tabnine安装失败常见报错、日志排查与升级回滚方案

Tabnine安装失败常见报错、日志排查与升级回滚方案

Tabnine安装异常通常与编辑器版本、网络连接、权限、缓存或插件冲突有关。可按环境检查、日志定位、重装清理、版本切换和回滚流程逐步处理,并注意代码隐私与插件来源安全。

时间:2026-07-02 06:41
Tabnine插件安装配置全流程:浏览器编辑器扩展市场

Tabnine插件安装配置全流程:浏览器编辑器扩展市场

Tabnine适合在主流编辑器中提供代码补全与生成辅助。安装前需确认官方来源、账号策略和编辑器版本,按扩展市场或离线包方式完成配置,并注意隐私、授权与兼容问题。

时间:2026-07-02 06:41
Tabnine本地模型运行全攻略:下载配置与性能优化

Tabnine本地模型运行全攻略:下载配置与性能优化

Tabnine可在本地运行代码补全模型,适合重视代码隐私、网络环境不稳定或企业内网开发场景。配置重点包括版本确认、模型下载、路径设置、资源分配、IDE检查与性能调优。

时间:2026-07-02 06:41
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜