当前位置: 代码迷 >> 综合 >> [python每日一练]--0009:找出html里的链接
  详细解决方案

[python每日一练]--0009:找出html里的链接

热度:70   发布时间:2024-01-03 20:38:27.0

题目链接:https://github.com/Show-Me-the-Code/show-me-the-code
我的github链接:https://github.com/wjsaya/python_spider_learn/tree/master/python_daily
个人博客地址:https://wjsaya.github.io
第 0009 题:一个HTML文件,找出里面的链接。

思路:

  1. 打开html文件;
  2. 逐行读取文件;
  3. 通过正则表达式匹配http://之类的开头的链接即可。

代码:

#!/usr/bin/env python3
#coding: utf-8
#Auther: wjsaya
#第009题,一个HTML文件,找出里面的链接。
import re
import osdef analyze(file_name):#print (os.listdir())print (os.getcwd())line = open(file_name,'r',encoding='utf-8').read()R = (r'([hftps]+://[^\s]*)"')for i in  (re.findall(R, line)):print (i)
if __name__ == "__main__": html = "./test.html"analyze(html)

效果图:

0009

  相关解决方案