当前位置: 代码迷 >> python >> 从python中的html文件中删除表
  详细解决方案

从python中的html文件中删除表

热度:66   发布时间:2023-06-13 16:43:37.0

我正在寻找从html文件中删除所有表的方法,即我想要html文件的副本而不在其中包含任何表[不要从文件中提取表或对其重新格式化等]。

我正在考虑使用以下形式的正则表达式:

 html_without_tables = re.sub(r"(?s)(?i)\<table .*\<\/table\>, " ", table)

但是,有无数的帖子说不要用正则表达式解析html,这使我有些不情愿(尽管不确定要引起什么问题)。 我猜Beautifulsoup必须能够做到,但不确定如何做到。

使用BeautifulSoup,这基本上就像查找所有table标签并在每个table标签上调用一样容易:

for table in soup.find_all("table"):
    table.extract()
  相关解决方案