当前位置: 代码迷 >> Web前端 >> 专业搜寻
  详细解决方案

专业搜寻

热度:239   发布时间:2012-11-01 11:11:33.0
专业搜索

计划建一个专业领域的搜索引擎,利用开源代码。

蜘蛛爬虫程序用Heritrix,Nutch;收录引擎用Solr. 这些都是开源的。

需要一名经验丰富的JAVA程序员,整合爬虫程序和收录引擎。对于Heritrix,只要程序员能编写一个heritrix writer, 把搜集的数据保存到MYSQL或XML,然后SOLR可以读取就可以了。NUTCH和SOLR的整合有documentation可以阅读,后者应该相对简易些。

相关链接:

1. Heritrix: http://crawler.archive.org/

2. Nutch: http://lucene.apache.org/nutch/

3. Solr: http://lucene.apache.org/solr/

  相关解决方案