上海 AI+Lab 实现突破:浏览器中 2ms 渲染 600 万 3D 高斯点
打开浏览器就能直接走进一个逼真的 3D 世界,还能像玩游戏一样自由旋转角度,更能看清每一个物体的细节,甚至还能看到会动的虚拟人向你招手。
这上海交通大学人工智能学院钟志航副教授和上海人工智能实验室等合作者打造的一个名为 Visionary 的平台,能让复杂的 3D 场景在浏览器里流畅运行,不需要下载任何软件,也不需要高性能显卡,点击链接就能看。

图 | 钟志航(来源:受访者)
以前要想看一个高质量的 3D 模型,要么得下载几个 G 的安装包,要么得忍受卡顿和模糊的画质。现在,研究人员将一个名为 3D 高斯溅射的技术搬到浏览器里,而且跑得比很多本地软件还快。
什么是 3D 高斯溅射?它好比一个超级智能的点彩画技术。传统 3D 模型要使用大量三角形网格拼出物体,计算量巨大。而高斯溅射使用成千上万个带有颜色和透明度的小点来代替场景,这些点像雾气一样悬浮在空间中,从不同角度看过去它们会组合成为完整的画面。这项技术因为效果好、速度快,正在成为一些世界模型创业公司的核心工具。

(来源:https://visionary-laboratory.github.io/visionary/)
但是问题来了,这么牛的技术普通人怎么用?以前的方法要么依赖笨重的本地软件,装起来非常费劲;要么在网页上跑,但使用的是老旧的 WebGL 技术,只能看静态画面,稍微动一下就卡顿,更别提那些会动的、会变化的场景了。

(来源:https://arxiv.org/pdf/2512.04597)
Visionary 的突破在于,它把整套技术栈搬到了 WebGPU 上。WebGPU 是新一代浏览器图形标准,能让网页直接调用显卡干活。Visionary 还做了一个很聪明的设计,他们把各种复杂的 3D 算法统一打包成为 ONNX 格式。
ONNX 就像一个通用语言,不管是用 PyTorch 还是用 TensorFlow 训练的模型,都成转成为这个格式,然后在浏览器里直接运行。这就意味着,你不需要懂底层代码,就能把最新的 3D 技术插进 Visionary 里用。
具体有多快?研究团队拿一个包含 600 万个高斯点的经典场景做了测试。现有的李飞飞 WorldLbas 团队推出的网页查看器 SparkJS 处理一帧需要 176 毫秒,而 Visionary 只需要 2 毫米,快乐将近 100 倍。而且画质一点都没有打折,反而因为算法优化变得更加细腻。

(来源:https://arxiv.org/pdf/2512.04597)
同时,Visionary 不只会处理静态场景。它支持会动的 4D 场景,支持可驱动的虚拟人,甚至支持在渲染完成后加滤镜和做风格迁移。比如你导入一个虚拟人模型,输入几个动作参数,它就能在浏览器里实时跳舞。这些动态效果以前只能在专业的动画软件里看到,现在点开网页就行。
研究团队使用几个案例展示了 Visionary 的能力。他们把 Scaffold GS 这种基于神经网络的 3D 模型跑进了浏览器,每帧只需要 9 到 16 毫秒生成画面。
他们把 4D 高斯溅射也搬了过来,处理动态场景时每帧只要不到 8 毫秒。对于虚拟人动画,即使是同时驱动 10 个虚拟人,也能保持在 55 毫秒左右,基本达到实时交互的标准。

(来源:https://arxiv.org/pdf/2512.04597)
这意味着未来的 3D/4D 内容将触手可及,不再受限于设备性能。设计师想展示一个视频,发给客户一个网址客户就能沉浸式体验;至于游戏 开发者他们甚至可以在浏览器里跑起来轻量级的 3D 游戏。
Visionary 已经在 GitHub 上开源了,任何人都能访问。他们还做了一个在线编辑器,你可以在里面同时加载多个 3D 模型,和传统网络模型混合渲染,实时调整视角。
钟志航告诉 DeepTech:“这项技术已经有了实际应用。在上海人工智能实验室的 2025 世界人工智能大会成果中,有一个叫书生翼飞的项目,就是基于 Visionary 把上海一大块区域的环境重建出来放在网页端,用户输入想要的飞机型号,系统就能实时生成对应的飞机,在上海上空模拟飞行。
在数字孪生领域,工厂或供应链需要把各个环节数字化,有了这项技术,整个孪生体系会变得非常逼真,方便人交互,也方便智能体在接近真实环境的空间里学习操作。”

(来源:https://arxiv.org/pdf/2512.04597)
当然,这项技术还在进化中。研究团队在论文里也提到,WebGPU 和 ONNX Runtime 还在发展,不同浏览器可能存在兼容差异。浏览器安全策略也对内存有约束,太大规模的场景和神经网络目前还跑不了。但是方向已然非常清晰:那就是未来的 3D 世界不再遥远,就存在于可能你此刻正在使用的浏览器。
钟志航表示,Visionary 还打包成了一个 three.js 的库,这意味着做游戏、做网页端开发都可以直接使用,共享整个 three.js 的生态系统。
后续团队计划在物理交互上发力,比如在游戏场景中加入力的反馈,弓箭射中墙面得有反应。同时也在构建空间智能体的评测基准,因为这套体系能把神经网络嵌到网页端做推理,甚至可以让体量不太大的多模态模型直接在网页上跑,一边做逼真的对话,一边执行空间任务。
钟志航的 Visionary 团队在招聘熟悉神经渲染和图形学的工程师和实习生,以及欢迎申请其在上海交通大学空间多媒体实验室的硕士博士以及 RA。详情请联系邮箱 zzh.tech@gmail.com
参考资料:
相关论文:https://arxiv.org/pdf/2512.04597
相关开源代码:https://github.com/Visionary-Laboratory/visionary
运营/排版:何晨龙
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
苹果手表为何不加入指纹识别 续航与成本是关键原因
近日,多家科技媒体与行业分析师证实,苹果公司已决定不在Apple Watch产品线中引入Touch ID指纹识别功能。这一决策的核心考量,聚焦于成本控制与电池续航两大关键因素,体现了苹果对智能手表产品定位的深度思考。 事实上,关于Apple Watch集成指纹识别技术的讨论已持续多年。早在2020年
苹果Vision Pro新品需等待两年,研发重心已转向智能眼镜
关于苹果Vision Pro的未来发展,近期行业再次传出关键信息。彭博社资深科技记者马克·古尔曼在其专栏中透露:苹果并未终止这款混合现实头显的研发计划,但期待下一代产品的消费者可能需要保持耐心——新一代设备的问世预计至少还需等待两年时间。 在最新一期《Power On》通讯中,古尔曼明确否定了“苹果
深圳南山教师如何利用AI变革课堂教学实践
人工智能正以前所未有的深度与广度重塑全球教育生态。在这场深刻的变革中,教师群体不仅是推动数字化转型的“关键力量”,更是连接技术创新与教育温度的“核心桥梁”。如何让教师真正成为技术的驾驭者,而非被技术所替代,已成为实现教育现代化的核心议题。 在深圳南山区,一项围绕提升教师人工智能素养的系统工程已全面启
联发科MDDC 2026前瞻:智能体化新愿景即将揭晓
5月13日,备受瞩目的MediaTek天玑开发者大会2026(MDDC 2026)即将正式启幕。本届大会以“全域芯智能,体验新无界”为核心主题,标志着联发科连续第三年举办这一引领行业风向的科技盛会。从前期透露的信息分析,大会将深度聚焦一个关键命题:如何构建“无处不在的智能体化新体验”。届时,联发科不
4月汽车出口近半为新能源 高增长支撑车市稳定
“4月汽车出口延续高速增长态势,成为稳定国内整体产销表现的关键支柱。”5月11日,中国汽车工业协会副秘书长陈士华的发言,精准概括了当前车市的核心驱动力。数据显示,4月我国汽车出口量达90 1万辆,增长势头依然强劲。其中,新能源汽车出口43万辆,同比大幅增长110%,占当月汽车出口总量的比重已接近50
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

