基本流程
准备工作
通过浏览器查看分析网页,学习编程基础规范。
获取数据
通过HTTP库向目标站点发起请求,请求可以包含额外header等信息,如果服务器能正常响应,会得到一个Response,获取页面内容。
解析内容
得到的内容可能为HTML、json等格式,可以用页面解析库、正则表达式等进行解析。
保存数据
可以保存为文本,也可以保存到数据库。
任务
爬取豆瓣电影Top250的基本信息。
https://movie.douban.com/top250
每页25部电影信息,总共10页
一、分析网站链接
点击下一页观察网页链接发现,在原网页链接后加?start=25,显示出来为26-50部电影信息,试着把start=25改为start=67,发现显示信息为第68部以后的25部电影信息。
二、分析网页结构和网页访问原理
F12查看网页源代码,右侧点击network分析向服务器发送请求的过程。
基本信息
Request:请求访问网站链接
Status Code:状态码
查看用户代理,表示我们使用的浏览器版本等等,在后期做伪装会用到。
cookie
服务器为了能够标识具体电脑访问的加密信息,我们必须学会使用保存记录cookie,爬取需要登陆的页面信息,需要使用cookie。
三、编码规范
1.一般Python程序第一行需要加入
#-- codeing = utf-8 --
方便转码为utf-8,代码中可以出现中文
2.单一功能或者关联功能用函数实现,提高可读性和代码重复利用率,以def开头,return用于结束函数可以返回一个值、多个值,也可以不返回值(None)
3.Python文件中可以加入main函数用于测试程序
if name==“main”:
四、需要的函数库
函数库下载方法
pycharm–点击file–setting–Project interpreter–点击+号搜索相关库下载
如果下载失败或者搜索不到,需要更改镜像
更改镜像
这个镜像是清华大学的,也可以换别的镜像。然后进行库的准备工作。