增量式与分布式爬虫解决方法_Java Web开发

增量式与分布式爬虫
老师要做一个项目，需要我们根据已有的开源爬虫改进，从而实现以下功能:
1.增量式爬取
判断是否为已爬过的内容；
（把已爬过网页的网址保存成索引文件，方便下一次爬的时候进行比对。若网址及内容都相同，则不必写入磁盘；反之则爬取新的内容）

2.记录爬取网站的路径

3.反应所爬取网站的更新内容的日期

4.爬取后存储的文件名根据时间命名

5.边爬边生成html

6.能扩展实现分布式

不知道哪些开源爬虫更适合利用呢？感觉heritrix和nutch都太大了，不好改~ 不知道有没有小的好改一点的爬虫。。。
另外希望大侠们能给我一点意见，学习爬虫看哪些书或者资料比较好？感觉我还处于没入门的状态，只能慢慢自学。。

------解决方案--------------------------------------------------------
我不太知道，帮你顶。
------解决方案--------------------------------------------------------
好吧我也理下你！！
但是我也不知道..
你是不是发错板块了！！