编写爬虫基本步骤:
1、根据URL获取得到网页的HTML源码
2、根据图片的URL在源码中的格式,编写正则表达式
3、从HTML中根据正则表达式解析出所有图片的URL,然后下载并保存
示例代码如下:(爬取遥感图像)
import re
import urllib.requestdef getHtml(url):page = urllib.request.urlopen(url)html = page.read()return html.decode('utf-8')def getImg(html):reg = r'href="(.*\.tiff)"'imgre = re.compile(reg)imglist = imgre.findall(html)x = 0for imgurl in imglist:urllib.request.urlretrieve(imgurl,r'E:\ZWB\datasets\train\image\%s.tiff'%x)x = x + 1html = getHtml("https://www.cs.toronto.edu/~vmnih/data/mass_roads/train/sat/index.html")
getImg(html)