全文搜索之Lucene增加中文分词功能方法

时间:2009-12-21 11:47来源:未知作者:admin 点击: 次

分享到：

一、分词功能介绍分词模块对于搜索的重要性不言而喻。例如，没有分词时，搜索“和服”会出现“产品和服务”，搜索“海尔”会出现“海尔德”，搜索“华为”会出现“清华为何

一、分词功能介绍

分词模块对于搜索的重要性不言而喻。例如，没有分词时，搜索“和服”会出现“产品和服务”，搜索“海尔”会出现“海尔德”，搜索“华为”会出现“清华为何”。所以有必要给文本增加词的边界信息以提高检索精确度。

猎兔全球首家推出支持Lucene的准确可用的中文分词模块。

二、执行方法

可以在命令行执行分词测试：

>java "-Ddic.dir=D:/lg/work/SSeg/Dic" -classpath D:\JAVA\lib\lucene-1.4.jar;D:\JAVA\lib\seg.jar test.seg.result.CnTokenizer

其中系统参数dic.dir指定数据文件路径，如：

"-Ddic.dir=D:/lg/work/SSeg/Dic"

或者编写一个用于测试的Jsp页面。

三、调用接口

seg.result.CnTokenizer，该类继承org.apache.lucene.analysis.Tokenizer。

一个简单的使用例子是：

import java.io.Reader;

import java.util.Set;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.LowerCaseFilter;

import org.apache.lucene.analysis.StopFilter;

import org.apache.lucene.analysis.TokenStream;

/**

* @author luogang

public class CnAnalyzer extends Analyzer {

//~ Static fields/initializers ---------------------------------------------

/**

* An array containing some Chinese words that are not usually

* useful for searching.

private static String[] stopWords = {

"www","的","和","与","时","在",

"是","被","所","那","这","有",

"将","会","为","对","了","过",

"去"};

//~ Instance fields --------------------------------------------------------

/** stop word list */

private Set stopSet;

//~ Constructors -----------------------------------------------------------

/**

* Builds an analyzer which removes words in STOP_WORDS.

public CnAnalyzer() {

stopSet = StopFilter.makeStopSet(stopWords);

}

/**

* Builds an analyzer which removes words in the provided array.

* @param stopWords stop word array

public CnAnalyzer(String[] stopWords) {

stopSet = StopFilter.makeStopSet(stopWords);

}

//~ Methods ----------------------------------------------------------------

/**

* get token stream from input

* @param fieldName lucene field name

* @param reader input reader

* @return TokenStream

public final TokenStream tokenStream(String fieldName, Reader reader) {

TokenStream result = new CnTokenizer(reader);

return new StopFilter(result, stopSet);

}

四、输出结果介绍

输出结果中的词性标注代码说明如下：

代码	名称	帮助记忆的诠释
Ag	形语素	形容词性语素。形容词代码为a，语素代码ｇ前面置以A。
a	形容词	取英语形容词adjective的第1个字母。
ad	副形词	直接作状语的形容词。形容词代码a和副词代码d并在一起。
an	名形词	具有名词功能的形容词。形容词代码a和名词代码n并在一起。
b	区别词	取汉字“别”的声母。
c	连词	取英语连词conjunction的第1个字母。
Dg	副语素	副词性语素。副词代码为d，语素代码ｇ前面置以D。
d	副词	取adverb的第2个字母，因其第1个字母已用于形容词。
e	叹词	取英语叹词exclamation的第1个字母。
f	方位词	取汉字“方”
g	语素	绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。
h	前接成分	取英语head的第1个字母。
i	成语	取英语成语idiom的第1个字母。
j	简称略语	取汉字“简”的声母。
k	后接成分
l	习用语	习用语尚未成为成语，有点“临时性”，取“临”的声母。
m	数词	取英语numeral的第3个字母，n，u已有他用。
Ng	名语素	名词性语素。名词代码为n，语素代码ｇ前面置以N。
n	名词	取英语名词noun的第1个字母。
nr	人名	名词代码n和“人(ren)”的声母并在一起。
ns	地名	名词代码n和处所词代码s并在一起。
nt	机构团体	“团”的声母为t，名词代码n和t并在一起。
nz	其他专名	“专”的声母的第1个字母为z，名词代码n和z并在一起。
o	拟声词	取英语拟声词onomatopoeia的第1个字母。
p	介词	取英语介词prepositional的第1个字母。
q	上一篇：Lucene.NET增加中文分词下一篇：使用dotlucene为数据库建立全文索引分享到： QQ空间新浪微博人人网开心网更多精彩图集精彩文章 asp.net实现word文档在线预览功能的 AspNetPager控件的最基本用法示例介 ASP.NET中使用TreeView显示文件的方法使用asp.net调用谷歌地图api示例一个ASP.NET的MYSQL的数据库操作类自 Repeater控件与PagedDataSource结合实现 asp.net不同页面间数据传递的多种 asp.net自定义分页控件示例压缩aspx页面删除多余空格的两种 asp.net 备份和恢复数据库的方法示热点文章免费打印控件推荐：Web打印控件 C#开发ActiveX控件.NET开发OCX控件案 VS2008发布项目出现“因为某项目未 C#屏幕捕捉编程之C#使用Screen类等关于Server Error in / Application C#使用Tesseract组件来识别OCR验证码设置Asp.net应用debug为false,关闭AS asp.net导出excel数据的常见方法汇总免费图表控件MsChart教程系列之实 ASP.Net巧用窗体母版页实例最新文章最新日志最新帖子 ASP.NET中MVC从后台控制器传递数据到前台视 ASP.NET在MVC中MaxLength特性设置无效的解决方 asp.net使用AJAX实现无刷新分页 asp.net+ajaxfileupload.js 实现文件异步上传代码 asp.net fileupload控件上传文件与多文件上传 .NET验证组件Fluent Validation使用指南 asp.net FileUpload控件实现文件格式判断与文件 smtp发送带附件的邮件代码分享 ASP.NET自定义Web服务器控件之Button控件不能看到某个圆圈中的数字，就说明某方面潜伏问题恶搞新交规三个故事说穿了许多人 Linux下安装、启动MySQL 学习PHP&MySQL之——字符编码篇（ Navicat连接本地Mysql出现10061错 MySQL Connector/Net 6.6. mysql主从同步图 "未找到 Oracle 客户端和网络组热门标签 sqlite3数据库微信自动回复 java堆栈类下拉列表框区制作详复合主键 PC通信异地备份 -f 易错点前端轻量级压缩无效中文名文件快的 ISAPI_Rewrit ICMP头在的 MMM安装指南 feof()函数 in_array override 不等于号日期差自然对数后退按钮 PHP内核探索 MSDE java.exe 分栏显示多个提交按钮之死下载进度条后代 Web页面存储hmtl 优雅处理 [布 Hacking 临时temp 世界坐标系进程终止 em重建 -Split js获 wxpythonp 主键自增本年装载器 2014过年倒计时随机数字更新字符串中文帮助剖析 priority_que 三步 rashost rc.d 获取网页源码赞助商链接关于我们 - 联系我们 - 广告服务 - 意见反馈 - 网站地图 - 版权声明 - 人才招聘 - 帮助 @CopyRight 2002-2008, 1SOHU.COM, Inc. All Rights Reserved QQ:1010969229 京ICP备18042785号-1 ♦▐返回顶部

全文搜索之Lucene增加中文分词功能方法

热门标签

赞助商链接