计划建一个专业领域的搜索引擎,利用开源代码。
蜘蛛爬虫程序用Heritrix,Nutch;收录引擎用Solr. 这些都是开源的。
需要一名经验丰富的JAVA程序员,整合爬虫程序和收录引擎。对于Heritrix,只要程序员能编写一个heritrix writer, 把搜集的数据保存到MYSQL或XML,然后SOLR可以读取就可以了。NUTCH和SOLR的整合有documentation可以阅读,后者应该相对简易些。
相关链接:
1. Heritrix: http://crawler.archive.org/
2. Nutch: http://lucene.apache.org/nutch/
3. Solr: http://lucene.apache.org/solr/