断断续续接触 python 爬虫一年多,确实挺有趣的。对于很多常规的网页抓取,发现技术难度也不是特别高。准备将一些使用心得,总结写一下,供以后自己查阅以及知识传播。
由于网页(html)类似于 txt 一样的文本文档,因此爬虫其实就是从网页里找到想要的文本信息,爬虫的实质就是解析网页。
解析网页一般有三种方式:
- 利用 python 的一些字符串处理函数,例如:split, partition 等
- 利用正则表达式,相对比较复杂,有时间慢慢总结
- 利用 Beautifulsoup 包,比较适合抓网页中不同的 class 内容,但我发现对于 js 文件的抓取,Beautifulsoup 包基本用不到
实际在抓取网页的时候,三种方式经常混合使用。以后慢慢补充这三种方法的应用。爬虫比较有趣,但挺浪费时间的,对目前学术的帮助也不是太大。