学习python爬虫以来,一直有不少小问题出现,解决了也就解决了,但总感觉少了些啥,好吧,不想了,这bug已经够恼人了。总之,在此总结一下,python爬虫出现的bug及其解决方法,之前在博文中说明的“坑”也会慢慢写进来。
文章目录
- 1.python使用xpath爬取数据返回空列表
1.python使用xpath爬取数据返回空列表
问题: 爬取西刺代理网站时,使用xpath解析网页root.xpath("//table[@id='ip_list']/tbody/tr")
,该解析式正确,html返回正常,但解析出来的列表长度为0,百思不得其解
资料: 浏览器会对html文本进行一定的规范化,会自动为路径中添加tbody,导致xpath解析失败
处理办法: 在路径中去除tbdoy这个标签,如:root.xpath("//tr[@class=''] | //tr[@class='odd']")