刚接触到爬虫抓取数据方面,对抓取到的数据该怎么有效去重,或者是聚类的算法计算哪些是热点啊,求指点
------解决方案--------------------
为什么不坐url 去重,或者 内容的一些关键字段去重呢?
------解决方案--------------------
用lucence直接写一个类,将爬虫得到的结果,按照某几个关键字段建立索引,新爬出的数据,按照关键字段先在lucence里面查一下看有没有,没有就加入到索引中,已经存在就丢弃掉
------解决方案--------------------
感觉弄出哪些是热点还要分词计算词频的吧。