业余时间,想做个爬虫玩玩。其中通过计算url的MD5值,再将MD5值比较,从而达到避免抓取重复url的问题。
请问有经验的朋友,一般是怎么设计存放MD5的数据结构呢?或者说对于数据量很大的数据,怎么设计,方便查询?通常的设计方案是如何的?
存数据库,会不会太慢呢?用线性链表维护这些url,会不会很占空间呢,查询速度又如何?用树结构?
------解决方案--------------------------------------------------------
用树吧 红黑树、(标准C++ stl 里面也有树的算法就是关联容器 可以参考)、个人觉得 在需要好的查询效率方面还是比较适合的.
------解决方案--------------------------------------------------------
qsort
bsearch