#导入lxml包下的etree类 from lxml import etree#随意定义一段html代码块 s="""<div><ul><li class="item-0"><a href="link1.html">aaa</a></li><li class="item-0"><a href="link2.html">bbb</a></li><li class="item-0"><a href="link3.html">ccc</a></li></ul></div> """#将字符串转换为html网页(编号) html=etree.HTML(s) print(html)print("-"*80)#将html网页转换为字符串 #与直接输出不同,这里会加上html,body标签。 html_string=etree.tostring(html) #输出并设置编码格式为utf-8(兼容中文) print(html_string.decode("utf-8"))print("-"*80)#匹配a标签1(多个结果就用列表循环输出) #加 / 得一层一层往下找 html_data1=html.xpath("/html/body/div/ul/li/a") for i in html_data1:print(i)print(i.text) # 输出a标签的内容print("-"*80)#匹配a标签2 #加 // 就可以省略前面在多级 html_data2=html.xpath("//div") for i in html_data2:# 加 @href 就是获取a标签里href的内容#. 暂时不知道什么意思res = i.xpath("./ul/li/a/@href")print(res)# for j in res:# print(j)print("-"*80)#匹配谓语(获取指定相同标签的其中一个,[]下标从1开始) html_data3=html.xpath("//li[2]/a") print(html_data3) print(html_data3[0].text) #输出内容
详细解决方案
网络爬虫,xpath
热度:84 发布时间:2023-12-02 04:35:54.0
相关解决方案
- xpath 语法!
- XPATH 怎么返回不包含关键字的属性的Html标签
- xpath
- php xPath 解析xml文件 有关问题
- XPath 示范
- (2)XPath 语法
- (3)XPath Axes(坐标轴)
- XPath 术语(1)
- javascript XPath 兑现
- javascript XPath 兑现【补充】
- 请教:xpath,xquery这些技术现在用的多吗
- php xPath 解析xml文件 有关问题
- 从另一个 XPath 结果获取 XPath 结果
- 无法使用 xpath 获取 youtube 视频的持续时间
- 语法错误:XPath 不是合法表达式 一般如何查找和修复 XPath 语法问题
- XPath,XML命名空间和Java
- 如何使用不同的搜索( cssSelector / tag / ClassName )创建元素的 Xpath
- java 软件中main方法无法运行 import com.sun.org.apache.xpath.internal.operations.String;
- Python + Selenium(2.5)- 使用 Xpath 定位元素
- 爬虫知识点(xpath)
- 爬虫数据-Xpath(豆瓣读书小案例)
- 爬虫数据提取-xpath
- python爬虫学习笔记day1 -requests模块,数据解析(正则,bs4,xpath)
- python爬虫之数据解析(XPath)
- xpath-helper的使用
- XPATH,代理IP,JSON数据格式,session
- 网络爬虫,xpath
- xpath 解析html代码
- 爬虫前的小准备--Xpath
- 网络爬虫 xpath