lucene中文分词器--版本更新

最新V1.1版分词器，已更新。
最新V1.1版分词器，已更新。

1.修订了对数量次切分的BUG
2.修订了对大文本切分时的重复输出BUG

下载地址
Lucene中文分词器 V1.1 CSDN下载
Lucene中文分词器 V1.1 Google 下载
时间: 2006年12月21日 13:17
最新V1.2版分词器，已更新。
1.优化词典
2.优化对人名，公司名，未知词汇切割算法

下载地址
Lucene中文分词器 V1.2 CSDN下载

Lucene中文分词器 V1.2 Google 下载
时间: 2007年01月05日 23:33

最新V1.3版分词器，已更新。

1.优化数词切分
2.优化算法效率

下载地址：
Lucene中文分词器 V1.3 CSDN下载

Lucene中文分词器 V1.3 Google下载
时间: 2007年01月10日 16:10

lucene中文分词器下载（词典全切分算法）
最新V1.4版分词器，已更新。
1.修订特定情况下数量词切分造成指针越界异常的BUG
2.进一步优化算法效率
3.优化词典
4.对英文和数词改为分割处理
下载地址：
Lucene中文分词器 V1.4CSDN下载

Lucene中文分词器 V1.4 Google下载
时间: 2007年01月19日 11:44

Lucene 中文分词 IKAnalyzer2.0.2 源码及jar包下载：
http://www.richmap.cn/bbs/page/bbs_3409_1.html
时间: 2007年12月14日 18:31
猎图网目前就是使用该分词器哦，欢迎大家多提意见和建议

分词器源码：
附件：/ikanalyzer2.0.2 source.rar

分词器jar包
附件：/ikanalyzer2.0.2.jar

IKAnalyzer2.0.2 源代码
猎图网目前就是使用该分词器哦，欢迎大家多提意见和建议

分词器源码：
附件：/ikanalyzer2.0.2 source.rar

分词器jar包
附件：/ikanalyzer2.0.2.jar
使用说明：
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。
1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP）
2. 对数量词、地名、路名的优化处理
3. 对未知词汇采用自识别结合二元切分算法，确保搜索召回率

V 2.0.2 修订 Bata版对二元切分的缺陷

正向全切分分词器：org.mira.lucene.analysis.IK_CAnalyzer（适合建索引时使用）

正向最大全切分分词器：org.mira.lucene.analysis.MIK_CAnalyzer（适合用户输入检索时使用）

下面演示“正向最大全切分分词器”效果：

例子：中华人民共和国香港特别行政区
0 - 7 = 中华人民共和国
7 - 14 = 香港特别行政区

例子：陈文平是开睿动力通讯科技有限公司董事长
0 - 3 = 陈文平
4 - 6 = 开睿
6 - 8 = 动力
8 - 10 = 通讯
10 - 12 = 科技
12 - 16 = 有限公司
16 - 19 = 董事长

例子：据路透社报道，印度尼西亚社会事务部一官员星期二(29日)表示，日惹市附近当地时间27日晨5时53分发

生的里氏6.2级地震已经造成至少5427人死亡?，20000余人受伤，近20万人无家可归。
1 - 4 = 路透社
4 - 6 = 报道
7 - 12 = 印度尼西亚
12 - 14 = 社会
14 - 17 = 事务部
17 - 18 = 一
18 - 20 = 官员
20 - 23 = 星期二
24 - 27 = 29日
28 - 30 = 表示
31 - 34 = 日惹市
34 - 36 = 附近
36 - 40 = 当地时间
40 - 43 = 27日
43 - 44 = 晨
44 - 46 = 5时
46 - 49 = 53分
48 - 50 = 分发
49 - 51 = 发生
52 - 54 = 里氏
54 - 58 = 6.2级
58 - 60 = 地震
60 - 62 = 已经
62 - 64 = 造成
64 - 66 = 至少
66 - 71 = 5427人
71 - 73 = 死亡
74 - 79 = 20000
79 - 81 = 余人
81 - 83 = 受伤
84 - 85 = 近
85 - 89 = 20万人
89 - 93 = 无家可归

感谢"蓝山咖啡"

其实我很早就用IK了,
我自己写的一个论坛就是用IK1.4的,在windows下跑感觉效果还不错.
(永恒论坛http://www.yyhweb.com).)
但最近又写了一个网站跑在linux下,用IK1.4作搜索的时候突然发觉分词的效果没有以前好了.用IK2.02实现效果也不太如意,特来此讨教.
我的所有编码一律UTF-8,可能和IK的gbk编码有关."蓝山咖啡"是否考虑过用utf-8编码实现下一个版本?

如果有时间不知道"蓝山咖啡"是否可以关注下linux下IK的应用以及UTF-8编码的问题?
或是能够给一些提示关于这些方面的?
在此谢过!!!

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/jyz3051/archive/2008/01/08/2029562.aspx

加支付宝好友偷能量挖...

2009-6-1评论(0)网络

阅读(157)喜欢(1)分类：lucene.net/分词技术