Lucene.Net 2.3.1开发介绍 —— 四、搜索(三)

评论(0)浏览(89)分类:lucene.net/分词技术
Lucene.Net 2.3.1开发介绍 —— 四、搜索(三)Lucene有表达式就有运算符,而运算符使用起来确实很方便,但另外一个问题来了。代码 4.3.4.1Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->Analyzeranalyzer=newStandardAnalyzer();QueryParserparser=newQueryParser("title",analyzer);Queryquery=parser.Parse(@":");Console.WriteLin..

Lucene.Net 2.3.1开发介绍 —— 三、索引(四)

评论(0)浏览(87)分类:lucene.net/分词技术
Lucene.Net 2.3.1开发介绍 —— 三、索引(四)4、索引对搜索排序的影响 搜索的时候,同一个搜索关键字和同一份索引,决定了一个结果,不但决定了结果的集合,也确定了结果的顺序。那个这个结果是怎么得出来的?这个顺序又是怎么排的呢?这两个问题不是本节讨论的重点,但是这两个问题却关系到本节要讨论的,索引对结果的影响问题。在不使用字段排序的情况下,Lucene.Net默认是按文档的得分来..

中文分词算法

评论(0)浏览(83)分类:lucene.net/分词技术
中文分词算法引:这一篇关于搜索引擎中中文分词算法经典的文章,不敢独享。仅就对小几处的别字做了修改。中文分词算法 1.1.1 最大匹配法分词的缺陷尽管最大匹配法分词是常用的解决的方案,但是无疑它存在很多明显的缺陷,这些缺陷也限制了最大匹配法在大型搜索系统中的使用频率。最大匹配法的问题有以下几点:一、长度限制由于最大匹配法必须首先设定一个匹配..

《Robots.txt 协议标准》介绍

评论(0)浏览(81)分类:lucene.net/分词技术
《Robots.txt 协议标准》介绍近期有很多站长咨询,怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问,我们对《Robots.txt 协议标准》进行了翻译,希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引..

Lucene.Net 2.3.1开发介绍 —— 二、分词(五)

评论(0)浏览(70)分类:lucene.net/分词技术
Lucene.Net 2.3.1开发介绍 —— 二、分词(五) 2.1.3 二元分词 上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只要出现这个字,不管它出现在什么位置。这就产生了上一小节开头讲的,对准确性产生了极大干扰。比如,如果有一段这样的话:“这是一个英雄!他有无法用词汇形容的孤单,但是他并没有用言语来表达。”这句话包含了“..

《Lucene天书》 Lucene的文件系统

评论(0)浏览(70)分类:lucene.net/分词技术
《Lucene天书》 Lucene的文件系统 Lucene的文件系统分为内存和硬盘两个部分,文件逻辑组织方式暂且不提,本文将关注其物理结构,包括它在内存中如何存放,以及如何写入硬盘。目录一、相关类 1.1 Directory 1.2 IndexInput和IndexOutput 1.3 RAMFile二、索引概述 2.1 IndexOutput 2.2 RAMOutputStream和RAMFile 2.3 内存文件是如何写入硬盘的一、相关类1.1 Directory一个Director..