当前位置: 首页
手机教程
Deepseek批量提取PDF中特点部分的文本

Deepseek批量提取PDF中特点部分的文本

热心网友 时间:2025-04-22
转载

一个pdf文件,要提取其中每章要点的内容:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Deepseek批量提取PDF中特点部分的文本

Deepseek中输入提示词:

你是一个Python编程专家,写一个脚本,具体步骤如下:

读取PDF文件:"F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著;闾佳译) (Z-Library).pdf"

提取PDF文件中所有“本章要点”和“第{number}章”(参数{number}的数值是从1到19,以1递增)之间的文本内容,

保存到word文档中,word文档保存到F盘中;

注意:每一步都要输出相关信息到屏幕上

Deepseek批量提取PDF中特点部分的文本

Deepseek的

要实现这个任务,我们可以使用Python中的PyPDF2库来读取PDF文件,并使用python-docx库来创建和保存Word文档。以下是实现该功能的完整脚本:

import PyPDF2

from docx import Document

import re

# 定义PDF文件路径

pdf_path = r"F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著;闾佳译) (Z-Library).pdf"

output_docx_path = r"F:\extracted_chapters.docx"

# 打开PDF文件

print(f"正在打开PDF文件: {pdf_path}")

with open(pdf_path, 'rb') as pdf_file:

reader = PyPDF2.PdfReader(pdf_file)

num_pages = len(reader.pages)

print(f"PDF文件共有 {num_pages} 页")

# 创建一个新的Word文档

doc = Document()

print("已创建新的Word文档")

# 定义正则表达式来匹配“本章要点”和“第{number}章”

chapter_pattern = re.compile(r'第(\d+)章')

key_points_pattern = re.compile(r'本章要点')

# 初始化变量

capture_text = False

current_chapter = None

extracted_text = ""

# 遍历每一页

for page_num in range(num_pages):

page = reader.pages[page_num]

text = page.extract_text()

# 查找“本章要点”和“第{number}章”

key_points_match = key_points_pattern.search(text)

chapter_match = chapter_pattern.search(text)

if key_points_match:

print(f"在第 {page_num + 1} 页找到 '本章要点'")

capture_text = True

extracted_text = ""

if chapter_match:

chapter_number = int(chapter_match.group(1))

print(f"在第 {page_num + 1} 页找到 '第 {chapter_number} 章'")

if capture_text and current_chapter is not None:

# 将提取的文本添加到Word文档中

doc.add_paragraph(extracted_text)

print(f"已将第 {current_chapter} 章的内容添加到Word文档")

current_chapter = chapter_number

capture_text = False

if capture_text:

extracted_text += text + "\n"

# 保存Word文档

doc.save(output_docx_path)

print(f"已将提取的内容保存到Word文档: {output_docx_path}")

脚本说明:

导入库:

PyPDF2:用于读取PDF文件。

python-docx:用于创建和保存Word文档。

re:用于正则表达式匹配。

定义文件路径:

pdf_path:PDF文件的路径。

output_docx_path:输出的Word文档路径。

打开PDF文件:

使用PyPDF2.PdfReader读取PDF文件,并获取总页数。

创建Word文档:

使用python-docx创建一个新的Word文档。

定义正则表达式:

chapter_pattern:用于匹配“第{number}章”。

key_points_pattern:用于匹配“本章要点”。

遍历PDF每一页:

使用正则表达式查找“本章要点”和“第{number}章”。

当找到“本章要点”时,开始捕获文本。

当找到“第{number}章”时,停止捕获文本,并将捕获的文本添加到Word文档中。

保存Word文档:

使用doc.save保存Word文档。

注意事项:

确保PDF文件中的文本是可提取的(有些PDF文件可能是扫描件或图像,无法直接提取文本)。

如果PDF文件中的文本格式复杂,可能需要调整正则表达式或处理逻辑。

运行脚本:

将脚本保存为.py文件并运行,脚本会自动提取指定内容并保存到Word文档中。

Deepseek批量提取PDF中特点部分的文本
来源:https://www.php.cn/faq/1285778.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
玩机技巧在哪里可以打开

玩机技巧在哪里可以打开

在如今智能手机高度普及的时代,各种丰富的功能和便捷的操作技巧让我们的生活更加便利。而玩机技巧作为挖掘手机更多潜力、提升使用体验的关键,很多人却不知道在哪里打开。下面就来详细介绍一下

时间:2026-04-07 14:54
荣耀MagicVs3如何设置24小时制

荣耀MagicVs3如何设置24小时制

在使用荣耀magicvs3手机时,设置24小时制能让时间显示更加符合我们的日常习惯或特定需求。下面就为大家详细分享一下设置24小时制的具体步骤。首先,打开手机的主屏幕。在主屏幕上找

时间:2026-04-07 14:49
12306积分怎么兑换座位升席

12306积分怎么兑换座位升席

在乘坐火车出行时,若能享受更舒适的座位体验,无疑会让旅程更加惬意。而12306的积分兑换座位升席功能,就为我们提供了这样的机会。那么,如何利用积分兑换座位升席呢?下面就为您详细介绍

时间:2026-04-07 14:43
爱奇艺万能播放器如何设置仅音乐从头继续播放

爱奇艺万能播放器如何设置仅音乐从头继续播放

爱奇艺万能播放器是一款功能较为强大的多媒体播放软件,对于想要仅让音乐从头继续播放的用户来说,有特定的设置方法。首先,打开爱奇艺万能播放器。当播放音乐文件时,进入播放界面。在播放界面

时间:2026-04-07 14:36
如何在WeGame开启网络加速

如何在WeGame开启网络加速

在使用wegame平台时,网络加速功能能为玩家带来更流畅的游戏体验。那么,wegame怎么开启网络加速呢?首先,打开wegame应用程序。进入主界面后,在界面上方的菜单栏中找到“辅

时间:2026-04-07 14:30
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程