当前位置: 代码迷 >> J2EE >> Lucene4.0+索引的效率有关问题
  详细解决方案

Lucene4.0+索引的效率有关问题

热度:151   发布时间:2016-04-17 23:52:45.0
Lucene4.0+索引的效率问题
最近用Lucene4.0做全文检索:公司大约有700GB左右的文件,格式有PDF、word、ppt、图片及其它等等,文件数量大约在70万个左右。我用多线程调用Tika来解析文件,解析后的文本文件写入本地磁盘,耗时大概1-2天的样子。然后用Lucene4.0对做索引,索引代码如下: 


            Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_40);  
            IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_40, analyzer);  
            iwc.setRAMBufferSizeMB(1024.0);  
            //Got OutofMemory issue if we don't setMaxBufferedDocs
            iwc.setMaxBufferedDocs(100);    
            writer = new IndexWriter(dir, iwc);  



第一次索引也要2天多,请问这个效率正常吗?能有提高索引速度的方法吗?我查了好多资料,多数都是基于Luncene2.2或者更老的,基本不怎么实用。 

最后,我的所有资料都是英文的,没有中文及其它文字。所以不涉及中文分词 
------解决方案--------------------
700个G索引48个小时,我觉得还可以接受吧。

而且你也不是每天都需要索引700个G,只是第一次初始化的时候需要为700个G文件索引
------解决方案--------------------
第一次 它要建索引所以肯定慢撒。。