2018/12/10
1.所思所想
今天压力还蛮大,因为自己开始接触更多的维度,需要实现更加有难度的功能,但自己应迎难而上,有百折不挠的勇气。
2.工作
【1】.维度的更新;
【2】.Python的爬虫模块Scrapy;
【3】.核心编程之多线程编程总结;
【4】.自然语言处理;
【5】.XPath
Scrapy:
crawl
runspider
startproject
XPath
scrapy shell --- response.xpath , response.selector.xpath
2018/12/11
1.所思所想
今天唯一的感触就是时间不够用,自己的事情实在太多太多,工作任务目前开始加重,不仅仅是原有的任务,还有新添加的繁琐的事情接踵而来,自己需要好好思量,将精力集中在最重要的事情上,努力提升自己解决问题的能力。此外,自己还有很多书要看,这些任务不能搁浅,
2.工作
吴中区脚本更新,并用类实现;
苏州环保局脚本更新 进行中。
2018/12/12
1.所思所想
今天烦躁的很,时间利用的也不充分,所以之后要少碰手机,将遇到的问题多加总结,把精力放在解决疑难问题上。cc君还是一个不错的女孩,也许之后还可以再试一下,我需要创造机会。
2.工作
安装Scrapy出现的问题:
Exception: Version mismatch: this is the 'cffi' package version 1.11.5, located in '/usr/local/lib/python3.5/dist-packages/cffi/api.py'. When we import the top-level '_cffi_backend' extension module, we get version 1.5.2, located in '/usr/lib/python3/dist-packages/_cffi_backend.cpython-35m-x86_64-linux-gnu.so'. The two versions should be equal; check your installation.
可能是因为pip3版本太老的原因,学长那儿正常安装,然而我这儿早了一步把python3.5给删了,哭泣。
2018/12/13
1.所思所想
自从昨天把python3.5删掉之后,终端也不能运行了,这使得我不得不备份所有的东西,然后请马亮学长重装系统。人生苦短,善待系统。此外,《沉思录》这本书我是真看的慢啊,之后的每天中午,就尽量别碰手机啦,这样每天可以节省半小时来看这本书。重装系统后,也要重新安装MySQL数据库,Pycharm IDE等等。
后来重装的pip3后,真的是可以安装scrapy了。我的天。
2.工作
今天和昨天时间都没用在工作上,但是自己解决问题的心态却更好了,人生莫过如此。
‘python宝典’里面有很多python爬虫相关的小项目,自己可以找机会练练手。
2018/12/14
1.所思所想
今天过得比较充实了,主要是自己把几个主要问题给解决了。
(1).jiance时间问题。首先就是马亮学长提到的更新到昨天的问题,后来我用了get_yesterday()来实现了下,发现确实有效果,但是在程序运行时,它会不断的得到时间,这本质上并没有解决问题,特别是如果一个省更新到第二天,get_yesterday()就会失灵,所以我要把yesterday作为一个全局变量。
(2).jiance_suzhou的更新问题。后来我把post_data和网页中的请求实体对比了下,发现company_id居然为None,原因是马亮学长更改了数据库结构。后来我把company_id和从数据库中读取的字段对应起来,方才解决了该问题。但这个脚本的一个主要问题是,它里面的有很多重复的跟数据库连接操作,这方面可以很大的改善。
(3).punish_suzhou的自动更新问题。可以说比较完美的解决了。但一个主要问题是脚本的get_table函数还是比较糟糕,刘凤成学长虽然花费了很多精力,但他目前还没有编写简洁代码的意识,所以我要以包容的心态去解决遇到的问题。下周争取把这个脚本给完善一下。
2.工作
自己的四川和西藏的行政处罚还没有做好,心态很崩。下周争取做好。此外,对于网页的图片格式爬取,下周完善下。
2018/12/15
1.所思所想
最近一段时间,工作上的事情越来越多,自己在专业能力的培养上所能花的时间也越来越少。
2.工作
今天主要就是在看《重构》,这是一本非常棒的书,很开心。
2018/12/16
1.工作
能运用自己的知识帮CC做了个脚本,心里开心的不行?