当前位置: 首页
AI
基于RocketQA的文本搜索系统

基于RocketQA的文本搜索系统

热心网友 时间:2025-07-20
转载
传统的文本搜索通过统计学的方法对文本进行特征度量,但这仅考虑了文本的表面特征。DPR通过将文本的一般表示,即,高维空间下的稀疏向量,转化为富含语言知识和文本信息的低维空间下的稠密向量,来实现文本的近似搜索。DPR在问答系统、搜索系统等多个领域得到了应用。

基于rocketqa的文本搜索系统 - 游乐网

基于RocketQA实现文本搜索

  传统的文本搜索通过统计学的方法对文本进行特征度量,但这仅考虑了文本的表面特征。DPR通过将文本的一般表示,即,高维空间下的稀疏向量,转化为富含语言知识和文本信息的低维空间下的稠密向量,来实现文本的近似搜索。DPR在问答系统、搜索系统等多个领域得到了应用。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

  在信息搜索领域,如果能够通过编码器将文本映射到具体的语义空间,每段文本对应在该空间下的向量,那么信息搜索问题便可转化为在给定空间下向量间的最近邻搜索问题。

  Dual encoder架构使用两个bert系模型,query model和context model分别将问题和对应的查找文本映射到768维的语义空间。为保证在实际检索过程中的精度,其训练策略为尽可能使问题和对应的文本之间的距离接近,而与无关的问题间的距离拉远。Cross model则使用一个bert系模型同时对问题和文本进行编码。

  RocketQA为百度在Dense Passage Retrieval的基础上对训练策略进行优化和改进得到的模型。一般的训练策略为:对于给定问题文本,使其在空间中的表示尽可能靠近正样本同时远离负样本。In batch训练策略则将同一批次内除正样本之外的其他样本均视为负样本。相比于在同一批次内进行采样,RocketQA使用了跨批次的负采样策略。实验证明,适当增大batch size可以较好的提高模型的性能。除此之外,考虑到在实际应用中,实际召回的错误样本多数为人为因素导致的,如漏标、错标等情况,为尽可能降低假负例对模型效果的影响,RocketQA使用cross model对文本进行打分,借此来筛去部分不符合要求的标注数据。同时,RocketQA也使用交互模型来得到更多相关的弱监督数据帮助其训练。

一、数据集简介

本项目使用2024语言与智能技术竞赛:段落检索比赛的数据集来实现模型索引库的建立。

数据集正式介绍:

  “近年来,得益于带有高质量人工标注的大规模段落检索数据集的出现,基于稠密向量的表示学习方法在段落检索领域取得了重大进展。 然而,由于缺乏相应的大规模中文检索数据集,在中文场景下应用稠密检索模型的相关研究受到了极大的限制。为了推动中文段落检索技术的发展,我们利用真实场景下的用户搜索日志,建立了首个大规模高质量中文段落检索数据集:DuReader_retrieval,并采用多路集成召回标注及训练、测试集语义去重等策略,提升了开发集和测试集的标注质量,保证评估的效果。DuReader_retrieval中的样本均来自于实际的应用场景,考察点丰富多样,覆盖了真实应用场景下诸多难以解决的问题。”

数据样例:

基于RocketQA的文本搜索系统 - 游乐网

定义数据集加载方式

为保证内存的合理使用,这里使用迭代器的方法来返回数据。

In [ ]
def read_file(file_name):    lines = 0    with open(file_name) as f:        for ln,line in enumerate(f):            one,two,three,four = line.strip().split('\t')            doc = Document(                text = three            )            lines = lines + 1            yield doc
登录后复制

二、Executor建立

  JINA提供了一整套搭建搜索系统的开源工具,其主要产品为DocumentArray,Executor和Flow。DocumentArray为基础数据结构,Executor负责对DocumentArray进行处理,Flow则提供整个工作流程。

In [ ]
!pip install rocketqa!pip install jina
登录后复制In [ ]
import rocketqafrom docarray import Document,DocumentArrayfrom jina import Executor,requests,Flowimport osfrom multiprocessing import set_start_method as _set_start_methodimport numpy as npimport sysfrom pathlib import Pathimport time
登录后复制

  文本问答的主要流程为:召回(retriever),重排(reranker)和阅读理解(reader)。在召回阶段,本项目使用RocketQA(dual model)将问题映射为一向量,之后近似最近邻搜索系统会在已有的索引库中搜索与之距离最近的向量,并返回top-k;在重排阶段,本项目使用RocketQA(cross model)对召回向量进行打分,最后根据排序返回最终得分前三的文本。

2.1 RocketqaDeExecutor

本项目使用RocketqaDe模型来实现第一阶段。在index建立索引库时,Executor将输入的content文本编码为语义向量,并将其嵌入Document中;在search搜索时,Executor将输入的待查询问题编码为语义向量。

In [ ]
class RocketqaDeExecutor(Executor):    def __init__(self,model_name="zh_dureader_de",use_Cuda=True,device_Id=0,batch_Size=32,*args,**kwargs):        super().__init__(*args, **kwargs)        self.model = rocketqa.load_model(model=model_name,use_cuda=True,device_id=device_Id,batch_size=batch_Size)    @requests(on="/index")    def encode_passage(self,docs:DocumentArray,**kwargs):        embeddings = self.model.encode_para(para=docs.texts)        docs.embeddings = [embedding for embedding in embeddings]        #docs.embeddings = embeddings                @requests(on="/search")    def encode_query(self,docs,**kwargs):        print("retriever is working......")        start = time.time()        for doc in  docs:            generator_temp = self.model.encode_query(query=[doc.text])            for temp in generator_temp:                doc.embedding = temp        end = time.time()        print("retrieve time: ",end-start,"s")
登录后复制

2.2 rocketqaCeExecutor

本项目使用RocketqaCe模型来实现第二阶段的打分重拍。在search阶段,该Executor将前一步处理后得到嵌入词向量与问题向量一起处理,得到每条召回结果的分数,并根据分数具体排名。在index阶段,该Executor不参与工作。

In [ ]
class RocketqaCeExecutor(Executor):    def __init__(self,model_Name="zh_dureader_ce",use_Cuda=True,device_Id=0,batch_Size=32,*args,**kwargs):        super().__init__(*args,**kwargs)        self.model = rocketqa.load_model(model=model_Name,use_cuda=True,device_id=device_Id,batch_size=batch_Size)    @requests(on="/search")    def rerank(self,docs,**kwargs):        print("reranker is working......")        print("召回结果排序中......")        start = time.time()        for doc in docs:            str_list = []            for m in doc.matches:                str_list.append(m.text)            doc.matches = []            scores = []            score_generator = self.model.matching(query=[doc.text]*len(str_list),para=str_list)            for g in score_generator:                scores.append(g)            scores = np.array(scores).argsort()            doc.matches.append(Document(text=str_list[scores[-1]]))            doc.matches.append(Document(text=str_list[scores[-2]]))            doc.matches.append(Document(text=str_list[scores[-3]]))        end = time.time()        print("rerank time:",end-start,"s")
登录后复制

三、Indexer建立

Indexer在index建立索引阶段将得到的嵌入语义向量存入docs中,之后,在search搜索阶段,将问题向量与索引库中的向量对比,最终得到top-k召回结果。

In [ ]
class Indexer(Executor):    _docs = DocumentArray()     @requests(on='/index')    def foo(self, docs: DocumentArray, **kwargs):        print("it is ok")        self._docs.extend(docs)     @requests(on='/search')    def bar(self, docs: DocumentArray, **kwargs):        print("all is well")        docs.match(self._docs, metric='euclidean', limit=20)
登录后复制

四、workflow建立

将上述三个Executor组建成一个Flow便可实现整体项目的搭建。

In [ ]
test_flow = (    Flow()    .add(        name = "test",        uses=RocketqaDeExecutor    )    .add(         uses="jinahub://SimpleIndexer/v0.15", install_requirements=True, name="indexer"    )    .add(        uses=RocketqaCeExecutor,        name="rerank"    ))
登录后复制

五、main启动函数

即使在使用GPU的情况下,每次建立索引也会消耗大量时间。本项目使用以下函数来实现在运行时单独执行建立索引库和搜索阶段。

In [ ]
def main(order):    if order == 'index':        if Path('./workspace').exists():            print('./workspace exists, please deleted it if you want to reindexi')            return 0        data_path = sys.argv[2]        if data_path is None:            print("No data_path!")        index(data_path)    elif order == 'query':        query()def index(path):    with test_flow:        test_flow.index(inputs=read_file(path), show_progress=True)def query():    with test_flow:        while(True):            query = input("请输入查询选项:")            if query == "exit":                break            query = Document(text=query)            docs = test_flow.search(inputs=query)                            matches = docs[0].matches            print("搜索答案为:")            ids = 1            for match in matches:                print("推荐答案排行,NO.",ids)                print(match.text)                ids = ids + 1
登录后复制

六、运行结果

运行 python wow.py index data_path来建立索引库

基于RocketQA的文本搜索系统 - 游乐网

python wow.py query来执行搜索操作

基于RocketQA的文本搜索系统 - 游乐网

In [ ]
!python wow.py temp_data/cross.train.demo.tsv#运行该指令来执行建库操作
登录后复制In [ ]
!python wow.py query#运行该指令来执行索引操作
登录后复制
来源:https://www.php.cn/faq/1410197.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

时间:2026-04-07 14:55
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟

时间:2026-04-07 14:49
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧

时间:2026-04-07 14:43
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

时间:2026-04-07 14:37
美国犹他州启动新试点项目:AI为患者开具精神类药物处方

美国犹他州启动新试点项目:AI为患者开具精神类药物处方

IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药

时间:2026-04-07 14:30
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程