当前位置: 代码迷 >> 综合 >> 网络爬虫抓取图片并保存到本地(re、urllib)
  详细解决方案

网络爬虫抓取图片并保存到本地(re、urllib)

热度:61   发布时间:2023-11-22 03:54:35.0

编写爬虫基本步骤:

1、根据URL获取得到网页的HTML源码

2、根据图片的URL在源码中的格式,编写正则表达式

3、从HTML中根据正则表达式解析出所有图片的URL,然后下载并保存

示例代码如下:(爬取遥感图像)

import re
import urllib.requestdef getHtml(url):page = urllib.request.urlopen(url)html = page.read()return html.decode('utf-8')def getImg(html):reg = r'href="(.*\.tiff)"'imgre = re.compile(reg)imglist = imgre.findall(html)x = 0for imgurl in imglist:urllib.request.urlretrieve(imgurl,r'E:\ZWB\datasets\train\image\%s.tiff'%x)x = x + 1html = getHtml("https://www.cs.toronto.edu/~vmnih/data/mass_roads/train/sat/index.html")
getImg(html)

 

  相关解决方案