当前位置:
首页
构建下一代Gemini!谷歌DeepMind VP:全模态嵌入模型Gemini Embeddings 2,8分钟预测15天天气的GenCast,实时动态改写世界的Genie 3
构建下一代Gemini的方法:寻找“根节点”
前沿AI领域,竞争的核心在于持续领先。我们思考的问题始终是:Gemini的下一代架构应该是什么模样?哪些问题是唯有AI才能攻克的?以及,我们该如何共同构建智能的未来?这不仅仅是关于人工智能的进化,更关乎人类智能乃至机器人智能的协同发展。在这条探索之路上,如何让技术与人类文明共同演进,是一个至关重要的命题。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
我们的方法论,是寻找“根节点”。与其将精力分散在细枝末节的“叶子”上,不如深入挖掘那些尚未解决的宏大问题空间。关键在于,我们能钻研多深?找到并解决最深层、最根本的问题,往往能撬动海量的下游影响。为此,我们在全球范围内积极寻求合作,以广阔的视角审视,寻找能帮助我们定位并攻克这些根节点的伙伴,同时将成果延伸至应用端,解决那些真正有价值的具体问题。DeepMind的使命是负责任地构建AI,造福人类,我们对此极为严肃。我们的目标,始终是解决那些真正值得投入的难题。
当然,DeepMind在前沿AI领域的探索涵盖众多方向。接下来,我们将聚焦其中几个颇具代表性的非语言模型突破,它们或许不像大语言模型那样备受瞩目,但其影响同样深远。
模仿特定神经元组合的嵌入模型
首先,从高级模型的角度,让我们聊聊嵌入模型。需要明确的是,这次讨论的重点是那些“不直接属于语言模型”的进展。在建模领域,嵌入模型扮演着关键角色。在深入之前,不妨先思考一个神经科学领域的经典概念:“詹妮弗·安妮斯顿细胞”。
没错,这指的并非单个细胞,而是一小簇神经元的特定组合。它们的神奇之处在于,只对某个特定的人、物体或地点产生反应。无论通过哪种感官模态——听到名字、看到照片或视频,甚至仅仅是听到声音——这组神经元都会被激活。大脑正是利用这种机制,实现了极速的识别、检索和对比功能。
那么,我们能否在人工神经网络中复现这种能力呢?答案当然是肯定的。为了实现快速检索、精准识别和高效对比,我们可以训练“嵌入模型”来编码这些高级概念。这样的模型能增强对不同信息呈现方式的鲁棒性,并精于理解不同激活状态之间的细微差别。
这其中,对比损失函数是关键。值得一提的是,嵌入功能是生成式AI不可或缺的伙伴。整个流程可以这样理解:有时我们需要生成内容,有时则需要精准检索,二者相辅相成。
全模态嵌入模型Gemini Embeddings 2
谷歌团队在这一领域深耕已久,近期发布的Gemini Embeddings 2,可以说达到了一个理想状态:它是真正的全模态模型。基于Gemini构建,使其继承了强大的世界知识和理解能力,从而实现了极其出色的检索效果。
为什么说统一和多模态如此重要?好处显而易见:你不再需要繁琐的多步骤流程来整合不同模态的信息。真正的端到端处理,避免了在合并音频、视觉和文本过程中造成的信息损耗。最终,你能获得一个统一的语义向量,它可以同时代表长达8K token的文本、128秒的视频、80秒的音频乃至完整的PDF文档。这些信息聚合在一起,能量是巨大的,可广泛应用于检索、查询乃至智能体逻辑构建等多个场景。
此外,模型还采用了名为“俄罗斯套娃表示学习”的技术。这项技术允许在同一个网络中表示不同维度的嵌入。例如,你可以先用256维的嵌入进行快速初筛,然后无缝切换到更高维度以获得更丰富的表达能力。这创造了一个统一的语义空间,并达到了顶尖的质量水准。尽管它的讨论热度可能不及语言模型,但作为后者的关键搭档,其重要性不言而喻。
接下来,让我们快速转向另一个完全与语言无关的突破性领域。
天气预测:超越“黄金标准”物理模型的神经网络模型
这项工作的起点,源于一个来自英国气象局的直接挑战。几年前,一位信息科学家问道:“你们能用AI预测降雨吗?能比我们的物理模型更准吗?”这个有趣的问题被带回了DeepMind团队。
深入研究后,我们发现,虽然基于大气物理模拟的传统天气预报极具挑战性,但对于神经网络模型而言,这却是一个相当可行的任务——前提是,我们拥有过去40年全球天气的海量数据作为支撑。
于是,几年前我们推出了GraphCast。这个模型能够预测全球范围内未来15天的大气状态,涵盖风速、温度、湿度等上百种变量。它采用了一种球面图神经网络,你可以将其想象成包裹地球的网格,节点从地表一直延伸至平流层下层。模型以自回归的方式运行,输入数据,输出预测,表现令人惊喜。
一个生动的例子是2024年末的飓风“李”。它进入大西洋后一度徘徊,随后转向北行,最终在新斯科舍省登陆。GraphCast提前整整9天就准确预测了其登陆地点。相比之下,那些被视为“黄金标准”的最先进物理模型,只能在提前6天时做出同等准确的预测。面对一场即将袭击陆地的大型飓风,多出这3天的预警窗口,其价值无可估量。
气象预测模型:8分钟生成15天天气预报 &直接预测气旋
基于这一成功,团队决定继续推进科学边界。下一代模型GenCast随之诞生。它的不同之处在于:这是一个概率性模型,并且拥有更高的准确度和效率。天气本质是混沌的,了解极端情况下的概率分布,能让预测更具操作指导意义。实际对比显示,在与1300个黄金标准基准预报的比拼中,GenCast在97%的情况下都更胜一筹。更惊人的是效率:生成一份15天的全球天气预报,现在只需单块芯片运行8分钟,而不再需要依赖大型超级计算机耗时数小时。这彻底改变了气象预报的解决方案范式。
但这支团队的探索并未止步。去年,他们推出了更新的技术——函数生成网络。它的革命性在于,直接预测气旋本身,而非先预报天气再通过后处理算法检测气旋。FGN将气旋的分类、识别、轨迹、风速乃至风眼形成等特性,直接融入网络进行训练,这使得其表现更为出色。目前,美国国家飓风中心已开始使用这项技术,并对它带来的优势感到兴奋。未来几年,我们期待它在全球范围内得到更广泛的应用。
为智能体创造“无限的环境”
最后,我们花点时间探讨另一个非语言模型的前沿:世界模型。这项工作深植于DeepMind长期以来在游戏和模拟环境中的积累。从Atari、围棋、星际争霸,到用于机器人研究的Mojoco环境,我们不仅训练智能体,更致力于创造“无限的环境”供其探索。
早期的Genie 1版本虽然只能运行几秒钟,但它证明了一个概念:根据文本提示生成一个小型的2D平台游戏世界,并允许用户在其中进行实时互动。这证明了路径可行。于是,团队开始扩大规模:增加数据、改进方法,并将训练对象转向3D游戏。
随之而来的Genie 2已经是交互式的3D环境生成器,尽管运行速度较慢且画质尚未达到现实级别。正当团队为此攻坚时,更强大的Genie 3出现了。
随心所欲改变世界的Genie 3
Genie 3的能力令人惊叹。例如,当你提示“我想要一个场景,让我正走在肯特郡泥泞的小路上”,它不仅能生成逼真的环境,还能让你“拥有”一个身体,并按照物理规律与世界互动——水会流动,脚步会踏出痕迹。模型不仅理解场景的外观,更理解了其内在的交互物理。
当然,场景远不止步行。你可以生成滑雪环境,并以多种方式与之互动。更有趣的是,你可以用一段简短的视频片段作为提示。例如,一位艺术家创作的前几秒视频被输入后,Genie 3能将其扩展成一个完整、鲜活的世界,你可以飞翔其中,与物体碰撞。模型具备“记忆”,它能记住场景中的独特建筑,并允许你飞回查看。
这些环境多样、交互性强且质量高,更重要的是它们具有一致性。例如,提示“我是一个身处折纸世界的折纸蜥蜴”后生成的世界,即使你离开一分钟再跑回起点,一切仍与开始时完全一致,这得益于出色的记忆能力。
最碘伏性的功能或许是动态提示。想象一下,当你行走在一个由Genie 3生成的、略显平淡的世界中(比如伦敦卡姆登运河边),你可以实时给出新的提示。于是,世界就在你眼前瞬间改变了。再来一次,纯属好玩,世界又焕然一新。这种“对抗式”地通过提示改变他人世界体验的构想,正在开创一种全新的娱乐形式。
全新的前沿
这不仅仅关乎娱乐。对于教育而言,其潜力同样惊人。能够进入一个世界并沉浸式地学习了解它,这种力量是巨大的。未来,我们必将看到这类技术越来越多地应用于各个领域。
就此,我的分享告一段落。顺便预告一下,明天早上我的同事Omar将会介绍Gemma 4,那是一个真正的语言模型。
谢谢大家。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
夸克AI怎么总结行业研报_夸克AI投资分析辅助工具【投资】
一、确认研报格式与可解析性 想让夸克AI帮你深度剖析一份行业研报?第一步,得先确认这份报告它“读得懂”。夸克AI的分析引擎依赖于可复制的文本内容,如果遇到扫描图片做成的PDF、加密文件、或者网页上那些需要复杂交互才能加载出来的内容,它可就“两眼一抹黑”了,自然没法给你生成有价值的总结。 具体操作很简
HermesAgent免费模型与付费模型的区别
一、模型调用权限与访问方式 当你打开Hermes Agent,看到模型列表里既有免费选项又有标价型号时,心里可能会犯嘀咕:这俩到底差在哪儿?咱们先从最基础的访问权限说起。 免费模型走的是“绿色通道”——它通过内置的NousPortal接口直接调用,你不需要额外配置任何API密钥或绑定订阅账户,开箱即
Claude 辅助学术论文写作的合规性讨论
使用Claude撰写论文需严格遵循出版伦理:一、署名须符合ICMJE CRediT标准,AI仅作工具;二、所有内容须人工溯源核查;三、署名权与AI著作权分离,保留修改痕迹并书面确认;四、按学科差异披露,如SSCI需致谢说明,IEEE用源码注释,PLOS需上传结构化日志。 当研究者借助Claude这类
CodeGeeX网页版快速访问地址_CodeGeeX网页版快速登陆入口
CodeGeeX网页版快速访问地址是https: codegeex cn ,支持20+语言智能生成、零门槛交互、工程级辅助及轻量部署。 CodeGeeX网页版的快速访问地址在哪?这恐怕是许多开发者上手前的第一个疑问。别急,答案就在这里。接下来,我们就一起看看这个便捷的入口,并深入了解一下它究竟能带
2026办公必备:千问AI自动整理会议纪要生成Excel教程
2026办公必备:千问AI自动整理会议纪要生成Excel教程 手头有会议录音或转写稿,却卡在最后一步——生成一份结构清晰、便于归档和分发的Excel纪要?问题往往出在缺乏自动化的信息提取和表格编排能力上。别担心,下面这五种方法,能帮你把通义千问处理过的会议内容,一键变成规范的Excel文件。 一、使
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

