谷歌Genie世界模型接入街景数据模拟真实街道
我们或许都曾有过这样的体验:在谷歌地图上打开街景功能,向亲友展示童年故居的样貌,或是将虚拟小人拖拽到巴黎街头,提前预览预订酒店周边的真实环境。如今,这项我们熟悉的数字探索工具,正迎来一次革命性升级——它将变得更具沉浸感和交互性,甚至允许用户调整天气,预览极端气候条件下的街道景象。

这正是谷歌最新整合项目的核心目标。近期,谷歌旗下DeepMind宣布,将其庞大的全球街景数据库接入“Project Genie”——一个能够生成多样化、可交互环境的通用世界模型。这一融合功能已在谷歌I/O开发者大会上正式亮相。
DeepMind开放性研究团队的科学家杰克·帕克-霍尔德在采访中阐述了其深远潜力:“这项技术的应用前景非常广阔,无论是用于训练AI智能体与机器人,还是供人类进行自由探索与规划,都展现出巨大价值。这也正是Genie项目一贯的核心使命。”
他举了一个具体案例:假设一台新机器人即将在阴雨连绵的伦敦投入使用。Genie可以预先模拟出阳光罕见地照射在维多利亚式建筑上的场景,让机器人在真实环境中遇到此类情况时,不至于因陌生而感到“困惑”。
对于普通用户而言,应用场景同样引人入胜:“例如,当你计划前往纽约旅行,却想预览非当前季节的街景。届时是否会下雪?你可以提前使用Genie,亲眼看看那条街道银装素裹的模样。”
支撑这一宏伟愿景的,是谷歌持续20年、覆盖全球的街景数据积累。通过街景采集车和人员背负的专用设备,谷歌已累计拍摄超过2800亿张高精度图像,足迹遍及全球110多个国家和地区,覆盖所有七大洲。
帕克-霍尔德强调:“街景为我们提供了海量真实世界地点的图像数据。将如此丰富的现实世界信息与强大的环境模拟能力相结合,其潜力是难以估量的。”
回顾发展历程,谷歌于去年8月发布了世界模型Genie 3的研究预览版,并于今年1月率先向美国的谷歌AI Ultra订阅用户开放访问,允许用户通过文本描述或上传图片来创建可交互的虚拟世界。该项目的长期愿景是服务于教育体验、游戏内容创作以及机器人仿真训练。
目前,Genie 3已在为Waymo的自动驾驶模拟器提供支持,帮助其车辆训练应对“遭遇龙卷风”或“路上偶遇大象”等极端罕见场景的能力。而接入街景数据后,这一能力有望助力Waymo更高效地将其自动驾驶业务拓展至全球更多城市。
Waymo虽然拥有自己的高性能模拟器,并依靠它成功将服务扩展至美国11座城市,但两者存在关键差异:Waymo的模拟视角通常锁定在车辆本身。而结合了街景数据的Genie,不仅能基于真实地理位置构建世界,还能将视角灵活切换至行人、骑行者或机器人等其他智能体,提供多维度的训练与测试环境。
据悉,谷歌已开始向部分美国地区的Ultra用户开放街景与Genie的集成功能测试,并计划在未来逐步扩大访问范围。全球其他地区的Ultra用户预计将在未来几周内陆续获得体验权限。
DeepMind产品经理迭戈·里瓦斯表示,团队的目标是让尽可能多的用户体验到这项创新功能。但他也坦诚指出,无论是街景集成还是Genie模型整体,目前仍处于实验阶段,在模拟的准确性与真实性方面仍有很长的路要走。
从谷歌团队展示的演示样本来看——包括对笔者曾居住街区进行的“水下世界”模拟——效果已相当令人印象深刻,场景还原度很高。但整体画风更接近制作精良的电子游戏场景,尚未达到照片级的逼真程度。此外,模型目前也缺乏对物理规律的深度感知,即无法理解因果关系。例如,在一段模拟雪中奔跑的场景中,人物角色直接穿过了仙人掌和灌木丛。
相比之下,谷歌的图像生成模型Nano Banana已能在信息图表中生成完美的文字,视频生成模型Veo也能理解纸船随波逐流、烟雾逐渐消散、布料覆盖物体等复杂的物理规律。
值得注意的是,这些物理规律并非通过硬编码规则植入模型,而是模型通过长期、被动地观察海量数据后逐渐“领悟”的,其过程类似于生命体通过观察来认知世界。
对于模型的现状与未来演进,帕克-霍尔德给出了一个时间预期:“就这类世界模型的发展阶段而言,我认为它在生成内容的准确性和视觉质量上,大约落后于当前顶尖的视频生成模型六到十二个月。但这无疑是我们最终必将攻克的技术挑战。”
谷歌地图总监乔纳森·赫伯特,一位12年前以实习生身份加入街景团队的“老兵”,也分享了他的见解。他认为,Genie目前还无法对一条街道进行完全精准的毫米级三维重建,但真正的技术突破在于AI所展现出的“空间连续性”能力。当用户环顾360度后,AI能够正确记忆并模拟用户身后的环境,并在此基础上持续构建出连贯的新场景。
“我们长期思考的核心问题,是如何在浩瀚的街景数据之上,构建出对现实世界最丰富、最精准的数字化模型,”赫伯特总结道,“将地图数据以这种创新的方式应用于前沿AI研究,正是我们长久以来所设想的方向。”
Q&A
Q1:谷歌Genie世界模型是什么,有哪些功能?
Genie是谷歌DeepMind开发的通用世界模型,能够生成多样化的交互式虚拟环境。用户可以通过输入文字提示或上传参考图片,来创建可探索、可交互的游戏化世界。目前,Genie 3已面向美国谷歌AI Ultra订阅用户开放,主要应用于沉浸式教育体验、游戏场景开发以及机器人仿真训练。最新进展是已成功接入谷歌街景数据,支持模拟真实街道场景及动态天气变化等效果。
Q2:街景数据接入Genie后,对Waymo自动驾驶训练有什么帮助?
Genie 3目前已在为Waymo的自动驾驶模拟器提供关键支持,专门用于训练车辆应对如龙卷风、道路上偶遇大象等极端罕见场景的能力。与Waymo原有的、视角固定的车辆模拟器相比,接入街景数据后的Genie不仅能基于全球真实地理位置构建高保真模拟世界,还能将训练视角从车辆灵活切换至行人、机器人等其他道路使用者,这有助于Waymo更高效、更安全地加速其全球城市拓展计划。
Q3:Genie的街景模拟目前有哪些局限性?
目前Genie的街景模拟在视觉效果上更接近精美的电子游戏画面,尚未达到照片级的真实渲染水平。模型也暂不具备完整的物理感知能力,无法准确模拟物体间的因果关系与交互,例如演示中人物可能直接穿过障碍物。此外,对街道进行完全精准的毫米级三维重建尚未实现。研究人员预估,该模型在生成内容的准确性和质量上,大约落后于当前最先进的视频生成模型六至十二个月的发展进程。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
可灵AI制作气泡上升破裂特效详细教程
在可灵AI中生成气泡从液体底部升起到水面破裂的特写镜头时,若效果不佳,可尝试:将过程拆解为三个物理阶段并用精确参数描述;利用首尾帧控制并配合光学破裂指令;启用视频3 0模型并注入液体粘度、表面张力等物理参数;上传真实液体基底图并开启表面法线重建功能,以引导模型模拟真。
AI模特换装视频效果真实自然吗服装电商实测解析
使用可灵AI制作服装电商换装视频时,需提供高清、姿态标准且背景简洁的原图。调整参数时应强化物理模拟与运动平滑,关闭风格化增强。复杂服装可采用分层替换与局部重绘处理。最后,引入真实动作参考视频进行微观校准,可显著提升动作自然度与布料动态真实感。
QoderWake数字分身动作捕捉与还原技术详解
QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术
简历工作经历优化技巧 AI助你告别流水账式写法
简历应避免流水账式经历和空洞评价。工作经历需用“动词+成果+数据”结构突出价值,如具体增长或性能提升数据。自我评价应基于事实,清晰展示核心优势与证明。AI工具可辅助优化结构,但关键数据、业务背景及岗位匹配逻辑需自行把控,核心在于用结果和证据展现个人价值。
阿里云发布全栈芯片路线图 平头哥真武M890性能提升三倍
阿里云推出平头哥新一代AI芯片真武M890,配备144GB显存,算力性能达上一代3倍,支撑智能体高频模型调用。该芯片已实战验证,未来将推出后续型号。平头哥坚持软硬一体策略,通义千问大模型在其上自主运行并实现性能提升,阿里云目标以此扩大AI市场份额。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

