面包屑图标 当前位置: 首页
AI资讯
热点详情

本地复现深度研究:深度求索R1+LangChain+Milvus完整实践教程

AI热点日报
AI热点日报时间:2026-06-29
热点解读

基于OpenAIDeepResearch的功能优势,提出本地化复现方案。采用DeepSeekR1、LangChain与Milvus组合,实现低成本、高灵活性与数据安全保障。部署流程包括问题优化、向量检索、分析生成与报告输出,成功复现基础版深度研究能力,适用于企业及学术场景。

探索深度研究工具的本土化复现,助力信息检索和内容分析。

  • Deep Research功能介绍及其对金融机构、律所、科研党的吸引力
  • 相较于传统搜索引擎,Deep Research的专业性和精准性优势分析
  • 基础复现逻辑演示及升级版方案的GitHub链接提供

金融机构、律所、科研党的福音来了!不久前,OpenAI 新推出了一项名叫 Deep Research(深度研究) 的功能,迅速风靡全球。我们可以将其理解为大模型+超级搜索+研究助理的三合一。在这项功能里,用户输入查询问题后,只需要选择 Deep Research 选项,OpenAI o3 就能自动查找分析数百个优质在线资源,并对其进行综合整理与加工,最终生成一份具备专业分析师水准的综合报告。不仅内容更加详实,而且精确可靠——足以替代普通人几小时甚至几十天的工作量。

01 Deep Research 因何风靡?

与普通搜索引擎相比,Deep Research的第一个优势在于更专业,大幅降低搜寻与内容评估成本。它可以同时链接互联网、企业知识库、数据库等多种信息来源,并对内容质量进行评估,优先展示高质量、高可靠性的内容,极大节省后续筛选的时间与精力。背后,Deep Research可能在专有数据上进行了训练,并使用了端到端的强化学习等多种微调方法。

第二大优势则在于更精准的理解与生成能力。传统搜索主要依赖关键词匹配,无法理解用户查询以及召回内容的语义。Deep Research不仅能精准理解用户提问,还能精确理解查询到的网页内容,并自动提炼要点和亮点。这主要是因为Deep Research迭代了基础模型——基于即将发布的OpenAI o3推理模型,可以基于推理来搜索、解释和分析大量文本。

第三个优势是一步到位的专业结果。基于规划、反思和记忆能力,Deep Research能执行多步骤任务,且根据实时信息调整输出,生成结构清晰的结果,省去用户做脏活(dirty work)的时间。不仅如此,它还能根据用户自定义的输出格式、风格和结构,生成专业报告。比如官方给出的案例中,通过Deep Research,OpenAI o3可以自动查询过去十年GDP排名前十的发达国家及发展中国家不同手机系统的普及率,并将其完整呈现在一张表格里。当然,完成这些金融、科学、工程领域的复杂任务需要更长时间(大约数十分钟),但相对人力而言,性价比已然极高。

02 为什么Deep Research不是针对中国用户及企业的最优解?

Deep Research很好,但美中不足的是,OpenAI不向中国大陆提供服务,而且Deep Research目前仅面向订阅了OpenAI每月200美元ChatGPT Pro计划的用户,成本不低。更重要的是,Deep Research要降低幻觉,依然依赖本地知识库,而对于企业级用户来说,数据安全是一条不可触碰的红线

那么如何解决这个问题?本地部署是最佳方案。对于国内用户,推荐DeepSeek R1 + LangChain + Milvus这个组合来替代Deep Research。这套方案的优势有三点:

  • 成本更低:相比OpenAI,DeepSeek R1在使用成本上大幅降低,同时在中文任务上的表现更符合国内用户需求。
  • 灵活性更高,门槛更低:这是一个松耦合的结构设计,可以根据需求轻松切换不同的大语言模型等底层配置。
  • 更安全:通过本地部署支持亿级数据高性能检索的Milvus,提升效率的同时避免了企业隐私数据泄露。

03 DeepSeek R1 + LangChain + Milvus部署方案

为了降低部署难度,本文仅做思路展示,采用一些相对低门槛的“低配版”选型,比如:

  • 开源DeepSeek R1,使用经过蒸馏并量化为4-bit的版本,方便在本地运行。
  • 为方便展示,不进行额外微调,Agent不会回溯或调整方向。
  • 囿于本地资源,查询范围框定在Wikipedia页面,只执行单独的RAG查询(暂不对全网搜索)。
  • 查找范围上,只限定文本数据,不将图像、PDF等纳入考量。

以下是详细的部署思路与流程:

第一步:定义/优化问题
首先,基于用户的问题,让推理模型对其进行优化,使问题表达得更具体、清晰。第一步的工作是重写提示并将其拆分成若干子查询或子问题。这方面可以发挥DeepSeek R1在推理方面的专长,将其拆解为简单的JSON结构化输出。以下是DeepSeek优化问题“演员阵容如何随时间变化?”的推理过程示意:

thinking
Alright, so I need to break down the question "How has the cast changed over time?" related to the evolution of The Simpsons. Let me think about what aspects are involved here.

First, I know that the cast has changed a lot, but I need to figure out the intermediate questions to approach this. The main question is about changes in the cast over time, so I should consider different areas that contribute to this change.

I guess the first sub-question would be about the original cast members. Who were the main voices and how did they evolve? Then, there might be new cast additions over the years, so another sub-question about that.

Also, some original voice actors ha ve left, so I should include a sub-question about departures. Then, new voice actors joining would be another point.

The show has been popular for a long time, so recurring roles changing might be another aspect. Additionally, the role of the show in society might ha ve influenced casting choices, so a sub-question about that.

Lastly, the overall impact on the cast's careers could be another angle. So, I should list these as sub-questions to cover all aspects.
response

第二步:搜索
接下来,对Wikipedia文章进行“文献综述”,将搜索到的文章进行解析,并将数据存储到向量数据库Milvus中(目前只阅读一篇文章,因为如果每个链接都调用推理模型,本地推理成本会非常高)。以下是如何使用Milvus的LangChain集成,将Wikipedia页面存储到Milvus中的代码示例:

wiki_wiki = wikipediaapi.Wikipedia(user_agent='MilvusDeepResearchBot', language='en')
page_py = wiki_wiki.page(page_title)

text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200)
docs = text_splitter.create_documents([page_py.text])

vectorstore = Milvus.from_documents(  # or Zilliz.from_documents
    documents=docs,
    embedding=embeddings,
    connection_args={
        "uri": "./milvus_demo.db",
    },
    drop_old=True,
    index_params={
        "metric_type": "COSINE",
        "index_type": "FLAT",
        "params": {},
    },
)

第三步:分析
基于搜索结果,Agent对相关信息进行加工,并产生问题分析过程(多步骤分析/反思工作流程,以及信息来源可信度与权重判定,可以在后续文章中详细展开)。以下是如何使用LangChain构建RAG并回答问题的代码示例:

# Define the RAG chain for response generation
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# Prompt the RAG for each question
answers = {}
total = len(lea ves(breakdown))

pbar = tqdm(total=total)
for k, v in breakdown.items():
    if v == []:
        print(k)
        answers[k] = rag_chain.invoke(k).split(' response')[-1].strip()
        pbar.update(1)
    else:
        for q in v:
            print(q)
            answers[q] = rag_chain.invoke(q).split(' response')[-1].strip()
            pbar.update(1)

第四步:生成
Agent完成研究后输出一个报告,对结果进行总结,比如创建一个结构化的大纲。随后,它完善每个部分,添加上章节标题和相应内容。(如果需要反思、重排和改写等更复杂的工作,则需要构建额外的规划、使用工具和记忆模块。)

04 结果展示

我们用于测试的查询是“《辛普森一家》随时间发生了怎样的变化?”,数据源是Wikipedia上关于《辛普森一家》的文章。以下是生成报告的其中一个章节:

05 总结:从给出回答到给出完整报告,大模型+向量数据库前景无限

短短数小时,我们设计出了一个基础的Agent,它能够进行推理、规划,并从Wikipedia检索信息,最后生成结构化的研究报告。尽管这个demo只是Deep Research的“丐版”,但其中Milvus、DeepSeek和LangChain等开源工具的选型思路,以及部署过程中的方法论,依然是每一位想要复现Deep Research的朋友的入门第一课。更重要的是,本篇采用市面上使用最多的开源产品,相比开闭源的OpenAI,它给了我们更多的灵活性和对部署成果的掌控力;本地部署也让企业数据的安全性多了更多保证,非常适合那些希望将其用于学术研究、内容生成等方向的用户。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:本地复现深度研究:深度求索R1+LangChain+Milvus完整实践教程要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2025021170439.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-06-30 19:04
AI驱动的Degiro投资组合跟踪与可视化工具

在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打

AI热点2026-06-30 19:04
Lorna基于CFMS数据驱动决策的投资平台

在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金

AI热点2026-06-30 19:03
前街购买记录追踪查询方法

Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一

AI热点2026-06-30 19:03
一款专业Finta AI驱动筹款助手,高效智能募资工具

在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A

延伸阅读