问题描述
我正在寻找从html文件中删除所有表的方法,即我想要html文件的副本而不在其中包含任何表[不要从文件中提取表或对其重新格式化等]。
我正在考虑使用以下形式的正则表达式:
html_without_tables = re.sub(r"(?s)(?i)\<table .*\<\/table\>, " ", table)
但是,有无数的帖子说不要用正则表达式解析html,这使我有些不情愿(尽管不确定要引起什么问题)。 我猜Beautifulsoup必须能够做到,但不确定如何做到。
1楼
使用BeautifulSoup,这基本上就像查找所有table
标签并在每个table
标签上调用一样容易:
for table in soup.find_all("table"):
table.extract()