说到爬虫,大家吃IT这行饭的人,肯定不陌生了。 什么事爬虫我就不在这里解释了。
我今天只是想给吃这行饭的人一个善意的提醒。
1:爬虫中最让人挠头的就是各种验证限制,天眼查,企查查,美团,饿了么等等,
为啥他们一定要做各种反爬措施? 一时为了保证数据安全,另外就是保证服务器的正常运行。
爬虫就是模拟请求发送到服务器,让服务器反馈正常的数据到你手里。
那么,高线程,多并发,多服务器的发送海量请求,你还认为自己的请求是算正常请求吗?
不,你这已经不是请求了,你这是DDOS攻击。 最基础的,你一次查询,需要进入搜索请求,进入详细请求,这是最少的。
尤其是做项目要求的日更,周更,月更。你往往需要在指定的日期里,进行一次全要求查询。大家可曾想过,自己的请求量会对服务器造成什么样的压力? 或许你一个人的访问请求,一小时就会有上百万次,更甚至是千万次。
知道为啥这些大站隔段时间就要更新一次规则之类防止爬取的手段吗? 就是过滤掉无用的虚假访问。
这些大站为了咱们该有的目标能够实现,转移目标,其实已经给开了方便之门。
那就是***.***.com/robots.txt
比如豆瓣,比如天眼查(只更新到2019.3.14),比如企查查。
更新:天眼查robots里,现在只能访问2019.2.24之前的,之后的也访问不到了。
他们已经把每日产生的新数据的链接放入进去,一个是方便百度蜘蛛的收录,另外就是方便了咱们做更新时的访问,不需要静坐搜索这一步,直接到达目的地。 你要知道:搜索这个服务,占用的服务器资源可是太大了。
做人留一线,日后好相见。
咱们下一次艺术再见。