当前位置: 代码迷 >> 综合 >> python爬虫中使用lxml解析本地HTML文件报错lxml.etree.XMLSyntaxError: Opening and ending tag mismatch.....
  详细解决方案

python爬虫中使用lxml解析本地HTML文件报错lxml.etree.XMLSyntaxError: Opening and ending tag mismatch.....

热度:11   发布时间:2023-12-18 06:14:03.0

问题描述

使用lxml.etree.parse()解析html文件,该方法默认使用的是“XML”解析器,所以如果碰到不规范的html文件时就会解析错误,报错代码如下:

lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and column 

问题解决

自己创建html解析器,增加parser参数

from lxml import etreeparser = etree.HTMLParser(encoding="utf-8")
tree = etree.parse("test.html", parser=parser)
r_list = tree.xpath('/html/head/title')
  相关解决方案