当前位置: 代码迷 >> 综合 >> Python爬虫实习笔记 | Week8 Daliy工作流水
  详细解决方案

Python爬虫实习笔记 | Week8 Daliy工作流水

热度:112   发布时间:2023-11-20 00:35:45.0

2018/12/3
1.所思所想
今天时间过得好快,自己还有很多事情没有做好,从今天起,每天解决一个公司项目中遇到的难题,这样,才能将自己所学运用于实践。
2.工作
暂时将《核心编程》的数据库编程部分看完,这样,之后更改时间更新的代码会游刃有余。
之前的《核心编程》多线程编程以及网络编程还需要细细总结。

2018/12/4
1.所思所想
今天主要可以做自己的事情,这真的是一件很爽的事情,主要解决了4个问题,这在工作部分有说明。另外,自己的Scrapy框架部分还没有开始看,四川21市还没有开始爬,需要注意时间。
2.工作:
【1】.今天蔚蓝地图的数据爬取出现问题,问题原因在于Cookie过期,后来将pageSize改为1000(网页没有那么大的值),后可以顺利爬取完成;
【2】.昨天讨论了数据库中表的变更问题,今天得到妥善解决;
【3】.主函数中的test_url可以从数据库中读取;
【4】.城市和省份根据城市名从数据库中读取,而不需要每次手动,这样可以避免很多错误。

[1].行政处罚的更新模块完成;
[2].监测数据需要将黄云云走后重新刷一遍。
[3].Scrapy框架需要认真看。
[4].《核心编程》需要总结
[5].行政处罚中的各数据段需要模块化;
[6].标准:240

2018/12/5
1.所思所想
加油!
2.工作
【1】.数据库操作
【2】.《MySQL技术内幕》

2018/12/6
1.所思所想
最近比较急躁,原因在于自己的任务拖延已久,很多事情还没有去安心做好;此外,算法竞赛需要花时间去好好琢磨,嗯,慢慢来。工作中需要好好积累,稍微提前或准数完成任务。
2.工作
【1】.在线监测苏州爬完;
【2】.信用等级爬完,发给马良;
【3】.行政处罚四川21市爬完;
【4】.正则还需要认真学习!

(1).240成都市   未爬
(2).241自贡市   没找到
(3).242攀枝花市 爬取成功 但内容为图片
(4).243泸州市 爬取成功 但内容为图片
(5).244德阳市 爬取成功 但内容为pdf
(6).245绵阳市 爬取成功 但内容为pdf
(7).246广元市 爬取成功 但内容为pdf
(8).247遂宁市 爬取成功 get
(9).248内江市 爬取成功 但内容为pdf
(10).249乐山市 爬取成功 但内容为图片
(11).250南充市 爬取成功 内容为pdf
(12).251眉山市 爬取成功 内容为pdf

【1】.行政处罚更新问题
【2】.Excel的脚本处理——插入数据库

2018/12/07
1.所思所想
加油,自己需要不断运行,完成遇到的每项阻碍。对于没接触过的任务,需要抱着一颗平常而审慎的内心,去拥抱变化。
2.工作
苏州市各维度数据更新。