当前位置: 代码迷 >> 综合 >> Python爬虫实习笔记 | Week6 Daliy工作流水
  详细解决方案

Python爬虫实习笔记 | Week6 Daliy工作流水

热度:103   发布时间:2023-11-20 00:36:48.0

2018/11/19
1.所思所想
上午主要就是做自己的事情,是的,如果没有一天天的积淀,而完全依靠项目中的不足而及时弥补,很难发现自己的痛点,并自觉的去完善。
下午可以说很成功,虽然没有做具体任务,但却解决了“困境”中的一环:不需要手动寻找我们需要爬取的数据,主要是url,而是根据html文档自有的特性,及所爬去模块的特征去寻找,可以说相当棒了。

2.工作:
【1】184 长沙市环保局 没找到 http://hbj.changsha.gov.cn/
【2】185 株洲市环保局  http://hbj.zhuzhou.gov.cn/c7738/index.html
【3】网页内容爬取之通用化

2018/11/20
1.所思所想:
今天上午还是看python爬虫实战,感觉自己在慢慢前进,毕竟很多事并不是一蹴而就的。在这个过程中,我需要不断提醒自己,要完善要精致,对于自身的不足,需要努力弥补,然后终能有所为。上午百度云的模拟登录简直太棒了,但好像web发生了改版,所以还没有成功模拟下。另外,下午用昨天的改进方法,效率大大提升,昨天应该是爬了9个市,真的惊人,我想如果能爬取到分页页码中的信息,应该会更快吧,加油!晚上去办了健身卡,资金问题雪上加霜啊啊啊啊,这段时间尽量节俭,早晚稀饭,这样不仅省钱,还能为保持健美体格做准备。

2.工作:
184-197 行政处罚 完成
188 邵阳市环保局  内容以图片为主  http://hbj.shaoyang.gov.cn/Node-4108.html
189 岳阳市环保局  内容以图片为主 http://zjj.yueyang.gov.cn/yyzjj/9180/24673/default.htm
190 常德市环保局  内容分页,暂时无法取出 http://whj.changde.gov.cn/col/col26488/index.html?uid=64567&pageNum=1

192 益阳运行出现问题
197 湘西土家族苗族自治州环保局 内容以图片为主 http://hbj.xxz.gov.cn/hjgl/hjjc/index.html

http://whj.changde.gov.cn/module/web/jpage/dataproxy.jsp?startrecord=46&endrecord=90&perpage=15   5
http://whj.changde.gov.cn/module/web/jpage/dataproxy.jsp?startrecord=46&endrecord=90&perpage=15   6

2018/11/21
1.所思所想:
今天我主要看了python爬虫的Chapter10,对于模拟登录有了更深认识,即通过构造post提交的数据来实现,但遇到的问题是,可能网站将post数据进行了加密,这时处理起来就比较困难,另外,各字段表示的含义也让人烦心,比较难构造,以后在这块努力下吧。下午,和本科生们开会,当我分享自己的技术技巧时,我觉得整个人是澎湃的,因为技术分享带给我快乐。后,主要看的是python网络编程这一块,为什么要看这一块呢?首先,我的计划是11和12月,尽可能把python语言熟通,MySQL技术内幕看完,这样,我才有明年3月份再找份实习的勇气。二是,网络编程很重要,看到学长用Flask框架实现了检测系统,感觉醍醐灌顶,自己需要学习的内容还有很多;第三,自己在框架方面需要弥补,自然无需多言。
2.工作:
【1】.验证码问题的识别,好好学习下。
【2】.Python网络编程

2018/11/22
1.所思所想
今天主要的事情仿佛就是开会了,谈的主要事情包括规范,公司名,数据的尽可能多地爬取,简历的筛选,合作事宜等等。
今天上午看了python公众号里讲的利用百度文字识别对验证码信息进行处理,然而却并没有太大用处,然后我把该aip模块用于项目的图片处理,发现效果尤其地好。所以说,要多看多思多总结,这样就能弥补自身存在的知识盲区,完善自身存在的问题,从而屹立职业之巅。
下午时间所剩不多,然后就将网络编程部分看了下,还没看完。。
2.工作
图片的文字识别得到实现。


2018/11/23
1.所思所想
今天把剩余的任务完成,然后开始做自己的事情,即网络编程相关,感觉很有收获,对于书后习题,我也要认真练习,这样才能有巩固知识的目的。下午听了马亮学长关于天眼查遇到的验证码问题,目前自己还没有明确的思路,说明自身实力还不够,对于一个IP被检测而跳出验证码,那该如何处理呢?需要好好思考!
2.工作
【1】今天处理时间问题发现了全角数字和半角数字的问题,解决策略是将数字转换成int,然后再拼接成时间,比如2016和2016;
【2】其次,今天遇到个动态加载的网页,数据都存放在<datastore></datastore>中,然后数据是通过post请求得到的,这时不是构造网页网址,而是构造具体页码的地址,所以说要善于发现,善于归纳。
【3】网络编程的功能实现与完善。