谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息
谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2:让机器真正“理解”多元信息
北京时间今天凌晨,谷歌扔出了一枚重磅技术冲击波——全新的 Gemini Embedding 2 模型正式发布。这可不是一次简单的迭代,它是谷歌首个原生的多模态嵌入模型。简单来说,从此以后,文字、图像、视频乃至整个文档,都能被它映射到同一个“理解空间”里,让机器用一种前所未有的统一视角来“看”世界。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这里需要先分清一个概念:嵌入模型和咱们常聊的生成式模型(比如 Gemini 3)走的不是一条路。生成式模型负责“创造”,而嵌入模型的核心任务是“理解”。它的工作,是把一段文本、一张图片或一段视频,转换成机器更容易读取和分析的数学形式(通常是向量)。

那么,这种转换有什么实际价值呢?关键在于语义。通过语义搜索、分类和聚类这些方式,嵌入模型能够捕捉到信息之间深层次的含义关联。因此,它提供的结果往往比传统的关键词匹配更精准,也更贴合上下文,真正从“匹配词汇”升级到了“理解意图”。
回顾谷歌的嵌入模型发展,早期的版本其实只支持文本处理。而这次的 Gemini Embedding 2,堪称一次全方位的“感官开放”。它一举支持了文本、图像、视频、音频和文档五种模态,并且能在超过100种语言中识别用户的语义意图,野心不小。
当然,能力越大,处理起来也越需要清晰的规则。不同数据类型的处理限制如下:
文本:上下文窗口最高支持8192个tokens。
图像:每次请求最多处理6张,支持 PNG 和 JPEG 格式。
视频:输入视频最长120秒,支持 MP4 和 MOV 格式。
音频:一个亮点是,它可以直接处理原始音频数据,省去了先转录成文字的麻烦步骤。
文档:最多可支持6页的 PDF 文件。
谷歌在官方博客中特别强调,新模型的目标是双重的:一是简化那些原本复杂的多模态数据处理流程;二是全面增强各类应用的多模态理解能力。哪些应用会因此受益?范围很广,从当前火热的检索增强生成(RAG)、更智能的语义搜索,到细致的情感分析和大规模数据聚类,都能看到它的用武之地。
更妙的是,这个模型还支持在一次请求中接收混合输入,比如“图像+文本”。这意味着它能同时分析不同媒体类型之间的关系,而不是孤立地看待它们。这无疑是向真正的跨模态理解迈出了一大步。
举个具体的例子吧。在法律领域的诉讼取证阶段,面对海量的证据材料(包括合同文本、监控视频、沟通录音),法律专业人士如何快速定位关键证据?Gemini 嵌入模型就能大显身手。测试结果显示,在数百万条记录的数据库中进行搜索时,多模态嵌入技术能显著提升检索的精度和召回率,同时让图像与视频的搜索效果也上了一个台阶。
目前,Gemini Embeddings 2(具体型号为 gemini-embedding-2-preview)已经通过 Gemini API 和 Vertex AI 平台开放了公开预览。值得注意的是,原先的纯文本嵌入模型 gemini-embedding-001 并未退役,它将继续服务于那些只需要处理文本的轻量级应用场景。谷歌这次是扩展了能力边界,而非简单地替换,策略相当清晰。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
“龙虾之父”TED首秀:谈中国养虾热,吐槽Anthropic,回应安全问题
4月21日报道:OpenClaw之父TED首秀,揭秘“龙虾”出逃与AI新形态 4月18日,TED舞台迎来了一位特别的演讲者——“龙虾之父”、OpenClaw创始人彼得・斯坦伯格。这场演讲,是他经历三年精神空虚后的一次意外回归。开发OpenClaw本是一次重新寻找动力的尝试,没想到却意外引爆了全球热潮
研究发现:同时使用过多 AI 工具实际上会降低工作效率,并导致“大脑疲劳”
警惕“AI脑疲劳”:多工具并行背后的效率陷阱 人工智能工具在提升工作效率方面的潜力有目共睹,但企业管理者们似乎需要踩一脚刹车,重新审视“越多越好”的堆叠式使用策略。过度依赖和同时调度多个AI工具,反而可能将员工推入一种新型的职业困局。 这一警示并非空xue来风,其根源来自《哈佛商业评论》近期发表的一
美的发布“三个一”战略及 MevoX 家居智能体,未来三年将投 600 亿深耕 AI 与具身智能等前沿领域
美的发布“三个一”战略及MevoX家居智能体,未来三年将投600亿深耕AI与具身智能等前沿领域 3月10日,以“智美万象”为主题的美的2026全屋智能战略发布会在上海举行。这次发布会,可以说为智能家居行业勾勒出了一幅相当清晰的未来图景。会上,美的正式亮出了其全屋智能的“三个一”战略、自进化家居智能体
曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序
曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序 一则来自《The Information》的报道,在行业里激起了不小的涟漪。根据他们3月10日的消息,腾讯内部似乎正在进行一项“绝密级”的AI智能体项目,而它的主战场,正是我们每天离不开的微信。 报道援引了四位知情人士
谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息
谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2:让机器真正“理解”多元信息 北京时间今天凌晨,谷歌扔出了一枚重磅技术冲击波——全新的 Gemini Embedding 2 模型正式发布。这可不是一次简单的迭代,它是谷歌首个原生的多模态嵌入模型。简单来说,从此以后,文字、图像、视
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

