python 爬虫：正则表达式 re 与网页解析包 Beautifulsoup_综合

断断续续接触 python 爬虫一年多，确实挺有趣的。对于很多常规的网页抓取，发现技术难度也不是特别高。准备将一些使用心得，总结写一下，供以后自己查阅以及知识传播。

由于网页（html）类似于 txt 一样的文本文档，因此爬虫其实就是从网页里找到想要的文本信息，爬虫的实质就是解析网页。

解析网页一般有三种方式：

利用 python 的一些字符串处理函数，例如：split， partition 等
利用正则表达式，相对比较复杂，有时间慢慢总结
利用 Beautifulsoup 包，比较适合抓网页中不同的 class 内容，但我发现对于 js 文件的抓取，Beautifulsoup 包基本用不到

实际在抓取网页的时候，三种方式经常混合使用。以后慢慢补充这三种方法的应用。爬虫比较有趣，但挺浪费时间的，对目前学术的帮助也不是太大。