当前位置: 代码迷 >> 综合 >> Python爬虫学习笔记(一、准备工作)
  详细解决方案

Python爬虫学习笔记(一、准备工作)

热度:61   发布时间:2023-11-28 00:20:05.0

基本流程

准备工作
通过浏览器查看分析网页,学习编程基础规范。
获取数据
通过HTTP库向目标站点发起请求,请求可以包含额外header等信息,如果服务器能正常响应,会得到一个Response,获取页面内容。
解析内容
得到的内容可能为HTML、json等格式,可以用页面解析库、正则表达式等进行解析。
保存数据
可以保存为文本,也可以保存到数据库。

任务

爬取豆瓣电影Top250的基本信息。
https://movie.douban.com/top250
爬取网站首页
在这里插入图片描述
每页25部电影信息,总共10页
在这里插入图片描述
一、分析网站链接
点击下一页观察网页链接发现,在原网页链接后加?start=25,显示出来为26-50部电影信息,试着把start=25改为start=67,发现显示信息为第68部以后的25部电影信息。
在这里插入图片描述
在这里插入图片描述
二、分析网页结构和网页访问原理
F12查看网页源代码,右侧点击network分析向服务器发送请求的过程。
在这里插入图片描述
基本信息
Request:请求访问网站链接
Status Code:状态码
在这里插入图片描述
查看用户代理,表示我们使用的浏览器版本等等,在后期做伪装会用到。
在这里插入图片描述
cookie
服务器为了能够标识具体电脑访问的加密信息,我们必须学会使用保存记录cookie,爬取需要登陆的页面信息,需要使用cookie。
在这里插入图片描述

三、编码规范
1.一般Python程序第一行需要加入
#-- codeing = utf-8 --
方便转码为utf-8,代码中可以出现中文
2.单一功能或者关联功能用函数实现,提高可读性和代码重复利用率,以def开头,return用于结束函数可以返回一个值、多个值,也可以不返回值(None)
3.Python文件中可以加入main函数用于测试程序
if name==“main”:

四、需要的函数库
在这里插入图片描述
函数库下载方法
pycharm–点击file–setting–Project interpreter–点击+号搜索相关库下载
如果下载失败或者搜索不到,需要更改镜像
在这里插入图片描述
更改镜像
在这里插入图片描述
这个镜像是清华大学的,也可以换别的镜像。然后进行库的准备工作。
在这里插入图片描述