当前位置: 首页
AI资讯
字节跳动与港科大推出MMProLong模型 长文档多模态训练效率显著提升

字节跳动与港科大推出MMProLong模型 长文档多模态训练效率显著提升

热心网友 时间:2026-05-25
转载

5月24日,字节跳动Seed团队与香港科技大学联合发布了一项突破性研究,聚焦于多模态大语言模型(LMM)的长文档训练难题。该研究基于阿里巴巴开源的Qwen2.5-VL模型,构建了一个名为MMProLong的创新模型,在处理效率与长上下文理解上取得了显著进展。其核心价值在于,它不仅挑战了多模态模型训练的常规范式,更关键地揭示了数据组织方式对模型长上下文能力的决定性作用,为行业提供了全新的优化思路。

研究精准指出了当前多模态大模型训练的一个关键瓶颈:在处理包含图文的长文档时,采用针对性的问答对训练策略,其效果远优于传统的字符识别转录方法。实验数据有力地证明了这一点——简单地将文档内容转录为纯文本进行训练,不仅无法提升模型在长上下文中的信息定位与检索能力,反而可能导致性能退化。相反,如果使用由独立模型(如字节跳动的Seed2.0)生成的、富含逻辑关联的长上下文问答对进行训练,模型则能高效学会在冗长的多模态信息流中,精准锁定并理解目标段落的核心内容。

正是基于这一创新的数据优化策略,MMProLong模型在仅消耗128,000个Token的有限训练预算下,便展现出了卓越的长文本稳定性与泛化能力。即使输入上下文长度扩展至256,000甚至512,000个Token,模型性能也未出现显著衰减或崩溃。在MMLongBench和MM-NIAH(多模态大海捞针测试)等权威基准评估中,其表现大幅超越了InternVL3-38B、Gemma3-27B等参数规模更大的开源竞品。更值得关注的是,这种通过优化数据质量获得的多模态长上下文能力,还展现出优秀的任务迁移性,可成功应用于未经专门训练的长视频理解场景。该策略的有效性与普适性,也在Qwen3-VL-8B模型上得到了进一步验证。

这项研究为当前大模型技术的发展提供了另一条极具性价比的演进路径。它证明,实现多模态长上下文能力的跨越式提升,未必需要像DeepSeek等模型那样,从复杂的视觉信息压缩或模型架构重构入手。通过深度优化训练数据的结构与质量,而非直接改动底层模型架构,同样可以达到甚至超越预期的效果,且成本更为经济可控。这无疑为未来开发支持更长模态、执行更复杂多步骤推理的智能体系统,开辟了新的技术可能性与研发方向。

来源:https://news.aibase.com/zh/news/28289

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
开源软件著作权申请资料生成工具使用指南

开源软件著作权申请资料生成工具使用指南

该工具是一款本地化、自动化的开源软件著作权材料生成工具。它能读取本地项目源码,自动生成符合官方要求的全套申请材料,包括源代码截取、操作手册撰写和申请表信息整理。整个过程在本地完成,保护隐私,并在关键环节设置人工确认以确保准确性,显著提升了软著申请的效率。

时间:2026-05-25 14:11
AI创投热潮推动技术革新单季融资破千亿

AI创投热潮推动技术革新单季融资破千亿

今年第一季度,AI领域融资总额突破1100亿元,同比增长185 4%。资本密集涌入大模型、具身智能等核心方向,头部企业单笔融资可达数百亿元。资金主要用于研发、算力与人才争夺,以资本换取技术壁垒。高投入推动技术迭代周期缩短至三个月内,同时推理成本显著下降,加速了AI在各行业的商业化落地进程。

时间:2026-05-25 14:11
智谱清影视频画面分割重组创意制作教程

智谱清影视频画面分割重组创意制作教程

制作画面分割重组视频时若效果不佳,常因提示词未明确划分区域、逻辑不清或后期协同不足。可通过四种方法改进:在提示词中嵌入空间坐标绑定语义;上传多张分区域原图驱动生成;分别生成素材后专业软件合成;或调用API实现网格分割控制。这些方法从易到难,能提升画面结构与动态拼贴。

时间:2026-05-25 13:38
数字分身如何赋能房地产云带看提升客户体验

数字分身如何赋能房地产云带看提升客户体验

QoderWake数字分身技术为房地产VR云带看提供系统性解决方案,通过解析VR空间语义、驱动智能问答、联动CRM分析、生成个性化电子楼书及执行合规校验等五大路径,将静态看房升级为智能交互、深度洞察与合规可控的全链路数字化营销服务平台。

时间:2026-05-25 13:38
QoderWake数字分身AI数字人技术优势与市场表现分析

QoderWake数字分身AI数字人技术优势与市场表现分析

QoderWake数字分身是聚焦具体岗位职责、能在生产环境中可信运行的Agent型数字员工。它将AI能力绑定到明确角色,具备长期记忆与事件驱动的闭环操作能力,通过动态注册机制协同企业既有工具链,并严格遵循安全规范与人类协同。系统通过任务反馈闭环持续进化,沉淀组织知识,适配业务需求。

时间:2026-05-25 13:37
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程