当前位置: 首页
编程语言
如何正确爬取HTML注释中的Pandas表格

如何正确爬取HTML注释中的Pandas表格

热心网友 时间:2026-07-04
转载

先来剖析这个经典问题:当你使用 Pandas 的 read_html() 爬取网页表格时,明明在 HTML 源码中清晰看到某个表格结构完整,但解析结果却是一个空 DataFrame——绝大多数情况下,这是因为该表格被 HTML 注释标签 所包裹。注释内容在解析过程中默认被忽略,因此无论是 BeautifulSoup 还是 read_html() 都会自动跳过它。这也正是你提取第一张表、第二张表时屡屡得到空数据的根源所在。

如何正确爬取被 HTML 注释包裹的 Pandas 表格?

这种情形在实际网站(例如 fbref.com)中尤为普遍。开发者经常将动态加载或备用渲染的表格临时存入注释区域,以兼容不同客户端环境或配合前端 JavaScript 渲染。虽然通过查看网页源码能够发现 # stats_keeper 这个表格的存在,但它实际上被嵌套在 注释结构中。BeautifulSoup 的 find_all() 方法可以定位到它(因为 response.content 获取的是原始字节流),然而在执行 pd.read_html(str(table2)) 时仍然会遭遇失败——read_html() 底层采用标准 HTML 解析器,注释内容默认被过滤掉。

那么解决方案是什么?核心策略只有一句话:在正式解析之前,先将所有 HTML 注释标记彻底清除。不要试图依赖 BeautifulSoup 提前提取,因为它返回的对象仍然保留着注释上下文信息。推荐的做法是:通过 requests.get().text 获取字符串格式的响应内容,随后直接使用 .replace('', '') 进行清洗处理,再将清洗后的内容传递给 pd.read_html()。具体代码如下:

from io import StringIO
import pandas as pd
import requests

url = "https://fbref.com/en/comps/9/keepers/Premier-League-Stats"
response_text = requests.get(url).text
cleaned_html = response_text.replace('', '')

# 直接按 ID 定位并解析,无需 BeautifulSoup 中间步骤
df1 = pd.read_html(StringIO(cleaned_html), attrs={'id': 'stats_squads_keeper_for'})[0]
df2 = pd.read_html(StringIO(cleaned_html), attrs={'id': 'stats_keeper'})[0]

print("First table shape:", df1.shape)
print("Second table shape:", df2.shape)  # 现在不再为空

需要留意的关键要点:

  • 切勿对 response.content(bytes 类型)直接执行 .replace() 操作,务必使用 .text(str 类型);
  • StringIO 转换步骤不可或缺,因为 pd.read_html() 要求传入类文件对象,而非直接传递字符串;
  • 如果页面中的注释存在嵌套情况(例如 -->),简单的 .replace() 可能无法完全覆盖,建议采用正则表达式 re.sub(r'', '', text, flags=re.DOTALL) 进行安全清除;
  • 完成一次 HTML 字符串清洗后,可重复利用它来多次调用 pd.read_html(...),从而避免重复发起请求,显著提升处理效率。

这一方法轻量且稳定可靠,巧妙绕过了 DOM 解析阶段注释内容被自动忽略的限制,堪称处理 HTML 注释包裹表格场景下的通用最佳实践方案。

来源:https://www.php.cn/faq/2752656.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Java日期字符串格式化:指定样式转换教程

Java日期字符串格式化:指定样式转换教程

Java 日期字符串格式转换:从 "yyyy-MM-dd " 到 "dd-MM-yyyy " 并保留纳秒精度 日期格式转换是 Java 日常开发中非常常见的需求。然而,看似简单的操作一旦忽略了细节,就容易埋下隐患。本文主要介绍如何将类似 "2023-03-13 12:00:02 " 的字符串,转换为 "1

时间:2026-07-05 06:51
Java static方法优雅替换全局配置管理

Java static方法优雅替换全局配置管理

在Java项目中,“能否用static方法替代全局配置管理”几乎是每次技术讨论都会出现的话题。答案是:可以,但前提是掌握正确用法。static方法本身并非配置管理的替代品,它更像一个统一入口——将散布在各处的硬编码值集中管理,封装成一个受控、只读、可验证的配置访问点。 真正优雅的做法是:利用stat

时间:2026-07-05 06:51
Java抽象类约束子类行为实现标准规范

Java抽象类约束子类行为实现标准规范

在Java的世界里,抽象类(Abstract Class)是约束子类行为最经典的机制之一。它既不像接口那样仅做纯声明,也不像普通类那样提供完整实现——它处于两者之间,既是契约也是骨架。核心要点就是:在父类中使用abstract关键字声明抽象方法,编译器会自动检查,漏掉一个方法都无法通过编译。 抽象类

时间:2026-07-05 06:51
Java多线程环境下StringBuffer字符串拼接方法

Java多线程环境下StringBuffer字符串拼接方法

StringBuffer 的线程安全机制,实质上是在所有修改方法上添加了 synchronized 锁——例如 append、insert、delete 等操作,均受同一把 this 锁保护。同一时刻只允许一个线程对内部的 char[] 数组和 count 字段进行修改,从而保障数据一致性。但代价显

时间:2026-07-05 06:51
Java局部变量作用域冲突解决与实战指南

Java局部变量作用域冲突解决与实战指南

Ja va局部变量作用域冲突:本质是设计问题,靠工具不如靠思路 许多开发者遇到局部变量与成员变量同名时,第一反应可能是“编译器会自动处理吧?”——遗憾的是,Ja va编译器仅负责报告语法错误,并不会替你梳理业务逻辑。局部变量作用域冲突本质上属于逻辑边界设计问题,必须由开发者主动规划、显式隔离。核心方

时间:2026-07-05 06:51
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜