CLucene 中文分词
clucene是c++版的lucene,可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。
我在看了《lucene in arction》一周之后,在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到,在网上收集clucene中文分词相关资料,发现主要有三个方面:
1、字符编码集问题:
项目设置:必须设置为Use Unicode Character Set。
因为使用ANSI时,汉字存在与其他语言编码重叠的问题,在分析文本时,很难判断一个char是否是半个汉字,或者是前半个汉字还是后半个汉字。同时,CLucene对UCS2编码能够提供支持,所以VC项目直接设置为Use Unicode Character Set。
对应的字节函数改变:\src\CLucene\util\Misc.cpp,line 76的Misc::_cpycharToWide函数
这个函数是CLucene中用来将char字符串转换为wchar_t字符串,但原有代码中的转化方式是不考虑编码,因此对汉字由ANSI到UCS2转换会失效,需要修改成使用windows API的MultiByteToWideChar函数
2、中文分词添加:
主要有2个方向:1)、 \src\CLucene\analysis\standard\StandardTokenizer.cpp
这个类实现了最基本的切分文本功能,包含英文分词、数字提取。虽然有包含CJK单字提取,但是不够完善。直接完善这里面的StandardTokenizer::ReadCJK处理中文函数;2)、添加一个新的 ChineseTokenizer.cpp处理中文分词问题;3)、中文分词方法:2分法,基于词典匹配法等,根据需要确定合适的方法,并不是越复杂越好。
我花了大约2周时间去跟踪clucene里面的索引建立和查询过程,最终只改了几行代码实现了简单的2分词法,实现了中文检索。
详细的网址信息:
[url]http://hi.baidu.com/developer_chen/blog/item/8c4c62dfc5a3a7124954039c.html[/url]
[url]http://hi.baidu.com/_1_1_1_1/blog/item/be1fe41f9fbf0f62f724e475.html[/url]
[url]http://www.cnblogs.com/sunli[/url]
下面这篇文章非常好,阐述了系统架构和部分对象层次结构,有利于大家对lucene的深入理解,推荐给大家。
开放源代码的全文检索引擎Lucene
[url]http://blog.csdn.net/heiyeshuwu/archive/2006/04/14/662805.aspx[/url]对于中文分词,实际上一般需求都比较简单,不需要太复杂,大家可随意尝试。对于大型 系统来说,毕竟速度是非常重要的。
cy163
关注 - 1
粉丝 - 3
关注博主0 0 0
(请您对文章做出评价)? 上一篇:下载 Clucene PPC RedHat 各种版本 [url]http://www.cnblogs.com/cy163/archive/2008/06/05/1214672.html[/url] 的地址
? 下一篇:Clucene C++编码转换 [url]http://www.cnblogs.com/cy163/archive/2008/06/05/1214736.html[/url]
clucene是c++版的lucene,可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。
我在看了《lucene in arction》一周之后,在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到,在网上收集clucene中文分词相关资料,发现主要有三个方面:
1、字符编码集问题:
项目设置:必须设置为Use Unicode Character Set。
因为使用ANSI时,汉字存在与其他语言编码重叠的问题,在分析文本时,很难判断一个char是否是半个汉字,或者是前半个汉字还是后半个汉字。同时,CLucene对UCS2编码能够提供支持,所以VC项目直接设置为Use Unicode Character Set。
对应的字节函数改变:\src\CLucene\util\Misc.cpp,line 76的Misc::_cpycharToWide函数
这个函数是CLucene中用来将char字符串转换为wchar_t字符串,但原有代码中的转化方式是不考虑编码,因此对汉字由ANSI到UCS2转换会失效,需要修改成使用windows API的MultiByteToWideChar函数
2、中文分词添加:
主要有2个方向:1)、 \src\CLucene\analysis\standard\StandardTokenizer.cpp
这个类实现了最基本的切分文本功能,包含英文分词、数字提取。虽然有包含CJK单字提取,但是不够完善。直接完善这里面的StandardTokenizer::ReadCJK处理中文函数;2)、添加一个新的 ChineseTokenizer.cpp处理中文分词问题;3)、中文分词方法:2分法,基于词典匹配法等,根据需要确定合适的方法,并不是越复杂越好。
我花了大约2周时间去跟踪clucene里面的索引建立和查询过程,最终只改了几行代码实现了简单的2分词法,实现了中文检索。
详细的网址信息:
[url]http://hi.baidu.com/developer_chen/blog/item/8c4c62dfc5a3a7124954039c.html[/url]
[url]http://hi.baidu.com/_1_1_1_1/blog/item/be1fe41f9fbf0f62f724e475.html[/url]
[url]http://www.cnblogs.com/sunli[/url]
下面这篇文章非常好,阐述了系统架构和部分对象层次结构,有利于大家对lucene的深入理解,推荐给大家。
开放源代码的全文检索引擎Lucene
[url]http://blog.csdn.net/heiyeshuwu/archive/2006/04/14/662805.aspx[/url]对于中文分词,实际上一般需求都比较简单,不需要太复杂,大家可随意尝试。对于大型 系统来说,毕竟速度是非常重要的。
cy163
关注 - 1
粉丝 - 3
关注博主0 0 0
(请您对文章做出评价)? 上一篇:下载 Clucene PPC RedHat 各种版本 [url]http://www.cnblogs.com/cy163/archive/2008/06/05/1214672.html[/url] 的地址
? 下一篇:Clucene C++编码转换 [url]http://www.cnblogs.com/cy163/archive/2008/06/05/1214736.html[/url]