阿里云百炼ES AI多模态搜索深度解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

阿里云百炼ES AI多模态搜索深度解析

热心网友时间：2026-06-03

转载

导读：

在当今搜索场景中，多模态搜索的应用日益广泛，例如通过文字寻找图片、利用图片检索图片，甚至借助图片描述匹配其他描述。本文将以阿里云 Elasticsearch（ES）与千问 VL 大模型为核心，完整演示从图片特征提取到向量检索的实战流程。提供的代码示例覆盖以文搜图、以文搜文、以图搜图、以图搜文四种常见场景，开箱即用。

效果展示＞＞

背景信息

当图片和文本这类非结构化数据并存时，传统的关键词匹配往往力不从心。更高效的做法是先将它们转换为向量，再通过向量检索快速命中相似内容。本实践使用以下三个工具：

Elasticsearch：作为向量存储与检索的核心数据库，此处选用 8.17 及以上版本。
千问 VL 模型：负责从图片中提取描述与关键词，相当于为每张图片生成一段自然语言说明。
DashScope Embedding API：将图片和文本分别转化为向量，从而在统一向量空间内实现跨模态匹配。

具体能实现哪些功能？

以文搜图：输入一句话，找出最匹配的图片。
以文搜文：输入一句话，找出最相似的图片描述。
以图搜图：输入一张图片，找出视觉上最相近的图片。
以图搜文：输入一张图片，找出内容描述最接近的文本。

系统架构

下图展示了整个多模态搜索系统的架构概览，从数据录入、向量生成到检索响应，流程一目了然。

前提条件

动手前请确认环境是否准备就绪：

一个 8.17 及以上版本的阿里云 Elasticsearch 实例（创建步骤参见官方文档）。
已开通百炼服务，并获取可用的 API-Key。
本地 Python 版本 ≥ 3.8。

环境准备

安装依赖

执行以下命令，一次性安装所需的库：

pip install elasticsearch dashscope requests streamlit

下载示例数据集

数据集来自公开的图片检索示例包，运行以下命令下载并解压：

wget https://github.com/milvus-io/pymilvus-assets/releases/download/imagedata/reverse_image_search.zip
unzip -q -o reverse_image_search.zip

解压后会得到一个 CSV 文件和多张图片样本。

目录结构

建议将工作目录组织如下：

multi_modal_search/
├── reverse_image_search.csv   # 数据集文件
├── train/                     # 图片目录（解压后生成）
│   └── *.jpg
├── scripts/                   # 脚本目录
│   ├── write.py               # 数据写入脚本
│   ├── read.py                # 查询脚本
│   └── demo.py                # 前端演示脚本

核心代码介绍

写入流程

写入过程分为两步：首先使用千问 VL 模型为每张图片生成一段描述文本，并存入 text_input 字段；然后调用多模态 Embedding 模型，分别将原始图片和描述文本转换为向量，对应 image_embedding 和 text_embedding。这样一来，后续无论使用图片还是文字进行查询，都能在同一向量空间内完成比较。

为便于演示，本示例仅处理前 200 张图片。

完整代码可参考官方文档中的 write.py 脚本。请根据实际情况替换以下参数：

ES 连接地址、端口、用户名、密码
百炼 API Key

执行 python3 write.py 后，控制台会逐条显示每张图片生成的描述及处理进度。

查询流程

查询脚本定义了四种检索类型。无论查询输入是文本还是图片，都会先调用百炼多模态模型生成对应的向量，然后根据检索类型匹配 image_embedding 或 text_embedding 字段，最终返回最相似的结果。

详细代码见 read.py 脚本，其中 ES 配置参数与写入流程保持一致。

前端 Demo

基于 Streamlit 搭建的简易演示界面，可在浏览器中直接交互体验四种搜索模式。代码位于 demo.py 中。

操作流程

步骤一：配置参数

运行脚本前，请打开 write.py 和 read.py，修改以下配置项：

# ES配置
ES_HOST = ""        # 替换为您的ES实例地址
ES_PORT = 9200
ES_USER = ""        # 替换为您的ES用户名
ES_PASSWORD = "" # 替换为您的ES密码

# 百炼API配置（仅write.py需要）
DASHSCOPE_API_KEY = ""  # 替换为百炼平台中可用的API Key

步骤二：加载数据集

进入 scripts 目录，执行数据写入脚本：

cd scripts
python3 write.py

成功执行后，您会看到类似下面的输出：

INFO - [1/7] 创建 ES 客户端...
INFO - ES连接状态: xxx...
INFO - 处理第 1/200 张图片: xxx
INFO - 描述: xxx
...
INFO - 处理完成！成功: 200, 失败: 0

步骤三：验证数据写入（可选）

运行查询脚本确认数据已正确写入：

python3 read.py

以“以文搜图”为例，搜索关键词“狮子”，结果类似：

以文搜图 - 搜索关键词"狮子"
✓ 得分: 0.8077 - 一只狮子坐在倒下的树干上，周围是茂密的灌木和树枝
✓ 得分: 0.7732 - 雄壮的狮子站在草地上，鬃毛在阳光下威武宁静
✓ 得分: 0.7566 - 雄狮特写，鬃毛浓密，眼神锐利

步骤四：启动前端演示

streamlit run demo.py

浏览器会自动打开 http://localhost:8501，界面直观易用。

步骤五：多模态向量检索

在搜索设置中选择检索类型（以文搜图、以文搜文、以图搜图、以图搜文），输入文字或上传图片，点击搜索即可查看匹配结果。

来源:https://juejin.cn/post/7646633153139359787

上一篇： Claude Code工具调用性能分析：瀑布流时间线快速定位瓶颈

下一篇：完全解读缺页中断与一般中断的主要区别

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

Python虚拟环境常见报错与开发环境语法问题排查避坑指南

TypeScript类型系统完整攻略：安装配置调试与2026实战落地

C#接口设计进阶新手必学关键点写出更稳代码

Java依赖管理常见报错排查与2026年5月新变化

Python虚拟环境入门：学习路径与实战避坑详解

TypeScript类型系统进阶：关键点与2026年落地场景

Go并发基础避坑：那些让初学者卡住一整天的错误

C#接口设计教程：新手从基础到首个项目的关键点

Java依赖管理入门指南学习路径与实战步骤详解

项目开发中 algorithm 算法库的正确引入与使用方法

比特币发行至今价格走势与历史最高点全解析

佩蒂股份代工业务承压品牌转型期如何破局突围

韩国比特币价格波动引热议市场前景与投资机遇深度解析

英伟达Blackwell服务器供应新机会与2026AI趋势新手必看

比特币价格今日行情走势分析及美元实时汇率换算

比特币今日价格启动最新市场动态分析与未来走势预测

比特币价格走势分析：市场趋势、影响因素与未来预测

比特币寄生币价格飙升是市场机遇还是投资泡沫深度解析

BTFA币是什么？香蕉特遣队猿运作机制与风险局限

比特币价格走势分析：数字货币市场风向标与美元汇率解读

比特币发行至今价格走势与历史最高点全解析

佩蒂股份代工业务承压品牌转型期如何破局突围

韩国比特币价格波动引热议市场前景与投资机遇深度解析

英伟达Blackwell服务器供应新机会与2026AI趋势新手必看

比特币价格今日行情走势分析及美元实时汇率换算

比特币今日价格启动最新市场动态分析与未来走势预测

比特币价格走势分析：市场趋势、影响因素与未来预测

比特币寄生币价格飙升是市场机遇还是投资泡沫深度解析

BTFA币是什么？香蕉特遣队猿运作机制与风险局限

比特币价格走势分析：数字货币市场风向标与美元汇率解读

阿里云百炼ES AI多模态搜索深度解析

背景信息

系统架构

前提条件

环境准备

安装依赖

下载示例数据集

目录结构

核心代码介绍

写入流程

查询流程

前端 Demo

操作流程

步骤一：配置参数

步骤二：加载数据集

步骤三：验证数据写入（可选）

步骤四：启动前端演示

步骤五：多模态向量检索

2026实测解析GPT-5.5模型能力详解与国内合规使用规范

分时操作系统和实时操作系统的主要区别

企业AI智能体从零搭建实战踩坑经验全记录

Selenium自动化测试入门：从环境搭建到首个可维护用例

专业表格魔法师 QoderWork CN 让脏数据秒变仪表盘神器