Deepseek批量提取PDF中特点部分的文本

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

手机教程

Deepseek批量提取PDF中特点部分的文本

热心网友时间：2025-04-22

转载

一个pdf文件，要提取其中每章要点的内容:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

Deepseek中输入提示词：

你是一个Python编程专家，写一个脚本，具体步骤如下：

读取PDF文件："F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著；闾佳译) (Z-Library).pdf"

提取PDF文件中所有“本章要点”和“第{number}章”（参数{number}的数值是从1到19，以1递增）之间的文本内容，

保存到word文档中，word文档保存到F盘中；

注意：每一步都要输出相关信息到屏幕上

Deepseek的

要实现这个任务，我们可以使用Python中的PyPDF2库来读取PDF文件，并使用python-docx库来创建和保存Word文档。以下是实现该功能的完整脚本：

import PyPDF2

from docx import Document

import re

# 定义PDF文件路径

pdf_path = r"F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著；闾佳译) (Z-Library).pdf"

output_docx_path = r"F:\extracted_chapters.docx"

# 打开PDF文件

print(f"正在打开PDF文件: {pdf_path}")

with open(pdf_path, 'rb') as pdf_file:

reader = PyPDF2.PdfReader(pdf_file)

num_pages = len(reader.pages)

print(f"PDF文件共有 {num_pages} 页")

# 创建一个新的Word文档

doc = Document()

print("已创建新的Word文档")

# 定义正则表达式来匹配“本章要点”和“第{number}章”

chapter_pattern = re.compile(r'第(\d+)章')

key_points_pattern = re.compile(r'本章要点')

# 初始化变量

capture_text = False

current_chapter = None

extracted_text = ""

# 遍历每一页

for page_num in range(num_pages):

page = reader.pages[page_num]

text = page.extract_text()

# 查找“本章要点”和“第{number}章”

key_points_match = key_points_pattern.search(text)

chapter_match = chapter_pattern.search(text)

if key_points_match:

print(f"在第 {page_num + 1} 页找到 '本章要点'")

capture_text = True

extracted_text = ""

if chapter_match:

chapter_number = int(chapter_match.group(1))

print(f"在第 {page_num + 1} 页找到 '第 {chapter_number} 章'")

if capture_text and current_chapter is not None:

# 将提取的文本添加到Word文档中

doc.add_paragraph(extracted_text)

print(f"已将第 {current_chapter} 章的内容添加到Word文档")

current_chapter = chapter_number

capture_text = False

if capture_text:

extracted_text += text + "\n"

# 保存Word文档

doc.save(output_docx_path)

print(f"已将提取的内容保存到Word文档: {output_docx_path}")

脚本说明：

导入库：

PyPDF2：用于读取PDF文件。

python-docx：用于创建和保存Word文档。

re：用于正则表达式匹配。

定义文件路径：

pdf_path：PDF文件的路径。

output_docx_path：输出的Word文档路径。

打开PDF文件：

使用PyPDF2.PdfReader读取PDF文件，并获取总页数。

创建Word文档：

使用python-docx创建一个新的Word文档。

定义正则表达式：

chapter_pattern：用于匹配“第{number}章”。

key_points_pattern：用于匹配“本章要点”。

遍历PDF每一页：

使用正则表达式查找“本章要点”和“第{number}章”。

当找到“本章要点”时，开始捕获文本。

当找到“第{number}章”时，停止捕获文本，并将捕获的文本添加到Word文档中。

保存Word文档：

使用doc.save保存Word文档。

注意事项：

确保PDF文件中的文本是可提取的（有些PDF文件可能是扫描件或图像，无法直接提取文本）。

如果PDF文件中的文本格式复杂，可能需要调整正则表达式或处理逻辑。

运行脚本：

将脚本保存为.py文件并运行，脚本会自动提取指定内容并保存到Word文档中。

来源:https://www.php.cn/faq/1285778.html

上一篇： photoshop7.0怎么做羽化？photoshop7.0羽化效果使用方法

下一篇：如何pdf转word文档？这二种方法建议收藏！

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

玩机技巧在哪里可以打开

在如今智能手机高度普及的时代，各种丰富的功能和便捷的操作技巧让我们的生活更加便利。而玩机技巧作为挖掘手机更多潜力、提升使用体验的关键，很多人却不知道在哪里打开。下面就来详细介绍一下

时间：2026-04-07 14:54

荣耀MagicVs3如何设置24小时制

在使用荣耀magicvs3手机时，设置24小时制能让时间显示更加符合我们的日常习惯或特定需求。下面就为大家详细分享一下设置24小时制的具体步骤。首先，打开手机的主屏幕。在主屏幕上找

时间：2026-04-07 14:49

12306积分怎么兑换座位升席

在乘坐火车出行时，若能享受更舒适的座位体验，无疑会让旅程更加惬意。而12306的积分兑换座位升席功能，就为我们提供了这样的机会。那么，如何利用积分兑换座位升席呢？下面就为您详细介绍

时间：2026-04-07 14:43

爱奇艺万能播放器如何设置仅音乐从头继续播放

爱奇艺万能播放器是一款功能较为强大的多媒体播放软件，对于想要仅让音乐从头继续播放的用户来说，有特定的设置方法。首先，打开爱奇艺万能播放器。当播放音乐文件时，进入播放界面。在播放界面

时间：2026-04-07 14:36

如何在WeGame开启网络加速

在使用wegame平台时，网络加速功能能为玩家带来更流畅的游戏体验。那么，wegame怎么开启网络加速呢？首先，打开wegame应用程序。进入主界面后，在界面上方的菜单栏中找到“辅

时间：2026-04-07 14:30

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

比特币（BTC）RSI现2025年末熊市相似走势,周线数据揭示市场底部信号

Mintlayer的智能合约如何运作？与以太坊Solidity模型有什么不同？

SUI区块链的技术基础包括什么？共识机制的工作原理是什么？

什么是CTSI代币？代币经济学怎么样？

PAAL代币如何参与治理？社区投票能决定哪些事项？

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

WPS动态交互图表制作指南：让数据变化直观呈现

PPT官方网站社区登录地址及用户交流中心入口

WPS会员中心登录指南：个人官网入口直达

2026最新教程：制作PPT动态交互图表详细步骤

PPT交互式图表添加教程：5步让演示动起来(2026)

PPT动态交互图表制作指南：3步搞定专业演示

Excel交互动态图表制作教程：详细步骤指南

PPT动态交互图表制作教程：5步插入可视化图表

PPT动态交互图表制作技巧：简单5步让演示更生动

Excel数据固化：3步将公式结果转为数值并避免引用错误

OpenAI急招安全负责人：年薪高达55.5万美元及股权

台积电3纳米芯片报价受AI热潮驱动，预计下月上涨

AI伪证呈堂被训诫：原告伪造带水印电子证据案

小米空气净化器十年领跑：线上销量第一，出货量破2500万台

蚂蚁阿福声明：问答结果无任何广告推荐与商业排名

AI机器人辅助精神科诊疗，潜在关联病例解析

我国AI地震监测达国际先进水平，核心技术实现实时预警

荣耀ROBOT PHONE真机体验：全球首款机器人手机亮相当下

全球首台30兆瓦纯氢燃气轮机投用，清洁能源新突破

一汽与零跑深化合作：共探中国新能源汽车新路径

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

反恐精英OL官网首页入口在哪反恐精英OL官网首页入口发布于 2026-04-07

红色沙漠传奇坐骑银牙获取位置红色沙漠传奇坐骑银牙获取方法发布于 2026-04-07

红色沙漠保险箱位置及解谜攻略利贝坦修道院保险箱解谜发布于 2026-04-07

西游Ⅲ官网首页入口在哪西游Ⅲ官网首页入口发布于 2026-04-07

杀戮尖塔2精神过载卡牌有什么用精神过载卡牌图鉴效果发布于 2026-04-07

动作冒险游戏《午夜之南》现已登陆PS5和Switch 2 发布于 2026-04-07

红色沙漠保险箱位置及解谜攻略斯特伦大宅保险箱解谜发布于 2026-04-07

红色沙漠斯特伦大宅8个听声按键保险箱解谜发布于 2026-04-07

《腐烂国度3》开启A测发布于 2026-04-07

从宿舍到全球！米哈游3位创始人捐赠母校上海交大设立AI未来基石基金发布于 2026-04-07

EA再次痛下杀手！17年后这款童年神游官宣停服发布于 2026-04-07

14年前索尼PS广告太炸了发布于 2026-04-07

《最后生还者》多人游戏倒在黎明前发布于 2026-04-07

网传刘慈欣担任《鸣潮》世界观架构师引热议库洛游戏辟谣：虚假编造发布于 2026-04-07

小虞姬为"高价陪玩没人点"言论致歉：口无遮拦我的锅发布于 2026-04-07

精忠报国！《帝国时代4》DLC岳飞传震撼来袭发布于 2026-04-07

win10如何解决字体显示乱码_win10字体显示乱码完整指南一文搞懂发布于 2026-04-06

WPS动态交互图表制作指南：让数据变化直观呈现发布于 2026-04-07

PPT官方网站社区登录地址及用户交流中心入口发布于 2026-04-07

WPS会员中心登录指南：个人官网入口直达发布于 2026-04-07

2026最新教程：制作PPT动态交互图表详细步骤发布于 2026-04-07

PPT交互式图表添加教程：5步让演示动起来(2026) 发布于 2026-04-07

PPT动态交互图表制作指南：3步搞定专业演示发布于 2026-04-07

Excel交互动态图表制作教程：详细步骤指南发布于 2026-04-07

PPT动态交互图表制作教程：5步插入可视化图表发布于 2026-04-07

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集