Kimi AI批量搜索提取PDF文档中特定文本
今天聊一个非常常见的办公自动化需求:手头有数百份PDF研报,需要批量提取每份文档中的“资料来源”或“数据来源”信息。具体来说,就是要精准定位那些以“资料来源:”、“数据来源:”或“来源:”开头的行。 如果手动逐份处理,打开数百个PDF、逐一搜索、复制、粘贴,效率实在低下。更高效的方案是编写一个Pyt
今天聊一个非常常见的办公自动化需求:手头有数百份PDF研报,需要批量提取每份文档中的“资料来源”或“数据来源”信息。具体来说,就是要精准定位那些以“资料来源:”、“数据来源:”或“来源:”开头的行。
如果手动逐份处理,打开数百个PDF、逐一搜索、复制、粘贴,效率实在低下。更高效的方案是编写一个Python脚本,实现自动化批量提取。如今借助AI编程助手的协助,完成这类脚本的难度已经大幅降低。
下面具体演示操作步骤。
在Kimi中输入提示词,让其扮演Python编程专家,完成脚本开发任务。提示词的内容大致如下:
- 打开指定文件夹(例如:F:\研报下载\AIGC研报);
- 使用pdfplumber库读取该文件夹内所有PDF文件;
- 逐行遍历文本,查找以“资料来源:”、“数据来源:”、“来源:”开头的行;
- 将提取结果保存到另一个文件夹(例如:F:\AI自媒体内容\AI行业数据分析)下的Excel文件中;
- 每一步都输出处理日志,并能妥善应对异常情况,如文件损坏、权限不足等。
关键就在于设计好提示词,把业务逻辑描述清晰。上面的提示词直接明确了路径、依赖库、匹配规则以及异常处理要求,Kimi理解起来没有任何阻碍。
生成的结果如下:
import os
import re
import pdfplumber
from openpyxl import Workbook
# 定义要搜索的关键词
keywords = ["资料来源:", "数据来源:", "来源:"]
# 定义源文件夹和目标文件夹路径
source_folder = r'F:\研报下载\AIGC研报'
target_folder = r'F:\AI自媒体内容\AI行业数据分析'
# 确保目标文件夹存在
os.makedirs(target_folder, exist_ok=True)
# 创建Excel工作簿
workbook = Workbook()
sheet = workbook.active
# 遍历源文件夹中的所有文件
for filename in os.listdir(source_folder):
if filename.endswith('.pdf'):
print(f"正在处理文件:{filename}")
file_path = os.path.join(source_folder, filename)
try:
with pdfplumber.open(file_path) as pdf:
for page in pdf.pages:
text = page.extract_text()
for keyword in keywords:
pattern = re.compile(re.escape(keyword) + ".*")
matches = pattern.findall(text)
for match in matches:
print(f"找到匹配的文本:{match}")
sheet.append([match])
except Exception as e:
print(f"处理文件{filename}时发生错误:{e}")
# 保存Excel文件
excel_file_path = os.path.join(target_folder, 'AI_Industry_Analysis.xlsx')
workbook.sa ve(excel_file_path)
print(f"所有数据已保存到:{excel_file_path}")
脚本的整体逻辑非常直观:循环读取指定文件夹内的所有PDF文件,借助pdfplumber逐页解析文本,通过正则表达式精准匹配以关键词开头的行,最终将匹配内容写入Excel。每一步都配有输出信息,便于实时跟进处理进度。异常处理机制也相当完善,单个文件出现问题不会影响整个提取流程。
实际运行效果非常理想。上百份PDF,几分钟即可完成批量提取。对于经常处理研报、需要系统整理数据来源的研究人员或内容创作者来说,这无疑是一个可以反复使用的高效小工具。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Kimi AI批量搜索提取PDF文档中特定文本要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点创客贴产品介绍 在平面设计圈,提到“创客贴”这个名字,很多人应该都不陌生。它是一款门槛极低的在线设计平台,即使你完全没有设计基础,也能在短短几分钟内搞定一张专业级海报、PPT演示文稿或H5页面。其核心逻辑非常清晰:借助AI智能工具和庞大的素材库,替你省去“从零开始”的繁琐步骤。 那么,它具体能胜任哪
说到语音识别技术,行业内其实不乏优秀方案,但若论准确率与多语言支持的兼顾,LumenVox无疑是值得重点关注的名字。它由LumenVox公司研发,核心是一套自动语音识别(ASR)系统,底层基于端到端的深度神经网络(DNN)架构。这套系统最突出的优势在于,能够精准识别多种语言和方言,并通过语音活动检测
Fabrie产品介绍 谈到数字协作工具,特别是那些专为设计师和创意团队打造的产品,Fabrie 无疑是近期市场上一个值得关注的选项。它将灵感记录、在线协作与设计工具等功能融为一体,核心目标十分清晰——帮助团队从创意构思到方案呈现的整个流程,都能更加高效地运转。 灵感记录与调研整理:收集参考图与灵感是
你听过播客吗?用过AI搜索工具吗?那么,播客与AI搜索的结合,是不是让你感到有些新鲜?最近,「小宇宙」搞了个新动作——上线了「问问小宇宙」功能。一个集现代科技与复古风格于一体的界面扑面而来,恍惚间让人联想到上世纪老纪录片里那些“大屁股”PC的画面。清爽的官网设计自带穿越感,甚至还有点儿撞衫的趣味,谁
- 日榜
- 周榜
- 月榜
热点快看
