当前位置: 首页
AI
中科院联合CreateAI发布多模态4D世界模型,实现4D场景重建

中科院联合CreateAI发布多模态4D世界模型,实现4D场景重建

热心网友 时间:2026-03-06
转载

一篇论文详细介绍了一种名为 NeoVerse 的 4D 世界模型。该模型突破了以往模型在关键可扩展性上的限制,构建了一个可扩展至真实单目视频的训练流程。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当前,众多“能懂”世界的 AI 正致力于将真实世界转化为可复用的数字世界,期望模型能构建出会动的 3D 世界并生成一致画面。然而,许多 4D 世界模型普遍存在依赖昂贵数据采集或复杂预处理、难以大规模推广的问题。对此,中科院与 CreateAI 联合推出的 NeoVerse,创新性地利用 100 万段开放场景的单目视频进行大规模训练,开辟了构建可扩展 4D 世界模型的新路径。

相关资料

论文与源码链接已提供。

论文介绍

该论文提出了一种名为 NeoVerse 的多功能 4D 世界模型。它能够进行 4D 场景重建、生成新颖轨迹视频,并能应用于丰富的下游任务。研究首先指出,当前主流的 4D 世界建模方法普遍存在可扩展性瓶颈,这要么是由于需要昂贵且专门的多视角 4D 数据,要么是源于繁琐训练预处理流程造成的。

与之相比,NeoVerse 基于一种核心理念构建,使得整个流程能够扩展适配到各种真实场景的单目视频。具体而言,NeoVerse 具备无需姿态先验的前馈式 4D 重建、在线单目退化模式模拟以及其他精心设计的技术。这些设计赋予了 NeoVerse 强大的通用性和泛化能力,使其能够应用于多个领域。同时,NeoVerse 在标准的重建和生成基准测试中均取得了领先的性能表现。

方法概述

上图展示了 NeoVerse 的技术框架。在重建部分,研究提出了一种无需姿态先验的前馈式 4DGS 重建模型,该模型采用双向运动建模。4DGS 在不同视角下的退化渲染结果,将作为条件输入到后续的生成模型中。在训练过程中,退化渲染条件通过单目视频模拟生成,而原始视频本身则作为训练目标。

实验结果

在极具挑战性的实拍视频中,利用大幅度的相机运动生成图像。我们将本方法与相关工作进行了比较,分别针对“向左平移”(左图)和“向右移动”(右图)的情况。NeoVerse 方法在保持精准相机控制的同时,实现了更高的图像生成质量。黄色方框突出显示了伪影问题。

此外,NeoVerse 可与功能强大的 Stable Diffusion LoRA 集成,从而实现不到 30 秒的快速推理速度。运行时评估在单个 A800 GPU 上进行。

结论

该论文介绍了一种名为 NeoVerse 的新型 4D 世界模型,它有效克服了以往模型在关键可扩展性方面的限制,构建了一个能够扩展至真实单目视频的训练流程。因此,得益于丰富的真实数据训练,NeoVerse 的泛化能力和通用性得到显著增强,从而能够应用于各种下游任务。大量实验表明,NeoVerse 在重建和生成任务中均取得了领先的性能。

局限性:NeoVerse 需要具备正确底层 3D 信息的数据进行训练。因此,它不能直接应用于缺乏 3D 信息的数据,例如纯粹的 2D 卡通图像。同时,受限于训练资源,我们精心整理的数据集(100 万个视频片段)规模仍有提升空间。我们为未来的工作保留了更多数据。

来源:https://www.51cto.com/article/837494.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
特拉维夫大学新方法揭秘AI分区管理思维提升语言模型理解力

特拉维夫大学新方法揭秘AI分区管理思维提升语言模型理解力

你有没有想过,当你跟ChatGPT或其他AI助手聊天时,它们的“大脑”里究竟是怎么组织知识的?就像我们人类的大脑会把不同类型的记忆和知识分门别类存放一样,AI的“思维”也需要某种组织方式。最近,一项开创性的研究为我们理解AI语言模型的内部工作机制,提供了一个全新的视角。 传统上,科学家们倾向于将AI

时间:2026-05-12 19:12
腾讯AI Lab推出Locas技术实现AI长文本记忆突破

腾讯AI Lab推出Locas技术实现AI长文本记忆突破

近日,一项由腾讯AI Lab团队发表于顶级学术平台arXiv(论文编号:arXiv:2602 05085v1)的研究引发了广泛关注。这项名为Locas的突破性技术,直指当前大语言模型(LLM)在处理超长上下文时面临的核心瓶颈:如何实现持续、稳定的信息记忆,同时有效防止在学习新知识时对原有能力的覆盖与

时间:2026-05-12 19:11
Lexsi Labs发布C-?Θ技术:AI安全控制从实时监控升级为一次性改造

Lexsi Labs发布C-?Θ技术:AI安全控制从实时监控升级为一次性改造

2026年2月,Lexsi Labs团队在人工智能安全领域取得了一项突破性进展。其发布于arXiv平台的研究论文(编号:arXiv:2602 04521v1)提出了一种名为“C-?Θ”(电路限制权重算术)的创新技术。该技术的核心目标,是解决大语言模型(LLM)部署中的核心矛盾:如何在实现高效安全控制

时间:2026-05-12 19:11
中科大与牛津大学合作推出Code2World技术让AI预知未来界面

中科大与牛津大学合作推出Code2World技术让AI预知未来界面

在手机上点击一个按钮会发生什么?打开一个应用会跳转到什么页面?这些看似简单的日常操作,背后却隐藏着一个对人工智能而言的巨大挑战。最近,一项来自中国科学技术大学、牛津大学、阿里巴巴集团和中山大学联合团队的研究成果,为这个难题提供了全新的解决方案。这项名为Code2World的研究,发表于2026年的顶

时间:2026-05-12 19:11
eBay团队AI新突破让机器深度理解电商场景奥秘

eBay团队AI新突破让机器深度理解电商场景奥秘

这项由eBay公司与阿姆斯特丹大学合作完成的研究发表于2026年2月,研究编号为arXiv:2602 11733v1。 当您浏览购物网站时,是否好奇AI助手如何精准筛选商品?例如,搜索“红色连衣裙”时,AI如何从海量图片中准确识别?或者,当您想了解一双鞋的材质细节时,AI又是怎样从复杂的商品图中提取

时间:2026-05-12 18:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程