HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。 使用时需要定义一个从类HTMLParser继承的类,重定义函数: 来实现自己需要的功能。 tag是的html标签,attrs是 (属性,值)元组(tuple)的列表(list).? 下面给出的例子抽取了html中的所有链接: 输出为: 如果想抽取图形链接 就要重定义 handle_startendtag( tag, attrs) 函数Python 用HTMLParser解析HTML文件
本文主要简单讲一下HTMLParser的用法.?
HTMLParser自动将tag和attrs都转为小写。from HTMLParser import HTMLParser
?
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.links = []
?
def handle_starttag(self, tag, attrs):
#print "Encountered the beginning of a %s tag" % tag
if tag == "a":
if len(attrs) == 0: pass
else:
for (variable, value) in attrs:
if variable == "href":
self.links.append(value)
?
if __name__ == "__main__":
html_code = """
<a href="www.google.com"> google.com</a>
<A Href="www.pythonclub.org"> PythonClub </a>
<A HREF = "www.sina.com.cn"> Sina </a>
"""
hp = MyHTMLParser()
hp.feed(html_code)
hp.close()
print(hp.links)
['www.google.com', 'www.pythonclub.org', 'www.sina.com.cn']
<img src='http://www.google.com/intl/zh-CN_ALL/images/logo.gif' />
详细解决方案
Python 用HTMLParser解析HTML资料
热度:1517 发布时间:2012-12-23 11:28:15.0
handle_starttag( tag, attrs)
handle_startendtag( tag, attrs)
handle_endtag( tag)
相关解决方案
- 访问Tomcat的url的时候如何自动调用index.html
- The requested resource (/webtest/servlet/hello.html) is not availabl 帮忙解决解决方法
- JSP 页面乱码 页面起首已设置 contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"
- html js不运行有关问题
- 办公自动化系统——议程管理(用jsp+servlet+js+html+jdbc)怎样实现
- <html:text>property的有关问题
- 关于<html:text>相关的有关问题
- Struts 1.2 html:form的action和form的action区别,还有如果2个都有执行哪个解决方案
- 简单计算器(html+js),该怎么解决
- HTML 小疑点,哪位高手解决 给哪位高手分
- 嵌入JSP中的CSS显示效果和在 HTML 中的不一样.为什么.该怎么解决
- struts1 中<html:checkbox>标签的value值怎么动态赋值
- 新人求问,J2EE方向,html,css,javascript,vml要学到什么程度?解决思路
- :前台和后台开发有啥区别?还有css、html、ajax、js、jquery都有什么区别
- struts <html:file> 怎么让前面的框消失,先谢过了
- =Html.TextAreaFor的文本区域大小如何设置
- 正则表达式 提取 html 标签的内容,该如何解决
- @Html.CkEditor,该怎么处理
- string msg = (string)html.ViewData["Message"];该如何处理
- html password editbox 编码有关问题
- @Html.TextBoxFor(a => a.Title 上边有红线,说异常
- 关于伪静态,怎么配置.html
- MVC中,Html.DropDownListFor怎么绑定数据
- 为何FCKeditor会在自动生成<html>标签呢
- MVC 中得 Html.ActionLink 怎么linkText显示图片标记
- <DOCTYPE html. 这个是有什么用?该如何处理
- asp.net C# 将网页变换为.html 格式
- @Html.ActionLink 基础解决办法
- 怎么引用一个 Html 控件对象
- HTML DOM setTimeout() 跟 setInterval() 的区别 ?———急——