0 0

Lucene中的termEnum.docFreq()方法计算结果不对,是什么原因?5

用的如图所示的文本进行的测试:

部分代码:

 

directory = FSDirectory.open(new File(indexPath));
IndexReader reader = IndexReader.open(directory);
TermEnum termEnum=reader.terms();

 

 

然后遍历termEnum,输出:

System.out.println("Term:"+termEnum.term().text()+"----》TermFreq:"+termPositions.freq()+"----》DocFreq:"+termEnum.docFreq());

结果:

明显里面教学媒体和教育这两个词语只在一个文档中出现(DocFreq应该是1),但是termEnum.docFreq()的结果是2,这个问题出在哪里?处理过程中的错?还是本身这个方法存在错误?
 


问题补充:文本截图显示不全,可以在附件中查看,希望各位高手指点,小女子感激不尽!
2014年1月17日 16:00
  • 大小: 65.3 KB
  • 大小: 32.7 KB

1个答案 按时间排序 按投票排序

0 0

首先你先确定Lucene的版本,然后查一下对应官方的api文档,看看你用的那个方法是实现什么功能的,是不是你想要的功能

2014年1月18日 14:14

相关推荐

    lucene-highlighter.jar

    lucene-highlighter.jar lucene-highlighter.jar

    lucene-analysis.jar

    《深入理解Lucene分析器库:lucene-analysis.jar解析》 在信息检索和搜索引擎领域,Apache Lucene是一个广泛使用的开源全文检索库。它的核心功能包括文档的索引、搜索以及相关的高级特性。其中,"lucene-analysis....

    Lucene学习源码.rar

    5. `org.apache.lucene.search.Searcher`:研究搜索过程,特别是如何计算相关性和返回结果。 四、实战应用 通过学习Lucene源码,我们可以定制自己的分词器、查询解析器,甚至优化搜索算法,以满足特定的搜索需求。...

    apache-lucene-analyzers.jar

    Apache Lucene是一个高性能、全文本搜索库,广泛用于构建搜索引擎应用程序。这个名为"apache-lucene-analyzers.jar"的文件是Lucene项目的一部分,主要包含了各种分析器(analyzers)的实现,它们在处理文本数据时起...

    Lucene.Net.Analysis.Cn.dll

    在C#开发中,搜索引擎的构建是不可或缺的一部分,而Lucene.Net作为一个强大的全文搜索引擎库,为开发者提供了丰富的功能。本文将重点探讨Lucene.Net.Analysis.Cn.dll和Lucene.Net.dll这两个关键组件在C#环境下的作用...

    最新版linux lucene-8.10.0.tgz

    Linux Lucene 8.10.0是Apache Lucene项目的一个关键版本,它是一个高性能、全功能的文本搜索库,广泛应用于Java开发中。Lucene提供了丰富的搜索功能,包括全文检索、高级分析器、索引优化等,为开发者构建复杂的搜索...

    lucene-2.9.2.jar包+源码

    通过源码分析,我们可以了解到Lucene如何计算这两个值,并结合它们确定搜索结果的排序。 在Lucene-2.9.2的源码中,你可以看到关于TF-IDF的具体实现,如`TFIDFSimilarity`类,它是Lucene对TF-IDF算法的封装。它不仅...

    lucene_cn.jar

    例如,`org.apache.lucene.analysis.cn.*`包下的类,如ChineseAnalyzer,是专为中文文本设计的分析器,它采用了诸如IK、HanLian、SmartCN等知名的中文分词算法,可以根据实际需求选择合适的策略。此外,还有一些辅助...

    lucene-3.5.0.jar

    标题中的"lucene-3.5.0.jar"是Lucene的一个特定版本——3.5.0的Java档案文件(JAR),这个版本的发布标志着Lucene在全文搜索领域的又一里程碑。本文将深入探讨Lucene 3.5.0的核心特性和使用技巧。 首先,Lucene是一...

    lucene-3.0.2.zip

    lucene-3.0.2.zip lucene-3.0.2.zip

    lucene-queries-2.9.0.jar 内含有org.apache.lucene.search.DuplicateFilter

    lucene-queries-2.9.0.jar 内含有org.apache.lucene.search.DuplicateFilter

    最新版linux lucene-8.8.2.tgz

    最新版linux lucene-8.8.2.tgz最新版linux lucene-8.8.2.tgz最新版linux lucene-8.8.2.tgz

    vb.net2.0_Lucene_test.rar_lucene_lucene vb.n_lucene.net vb

    标题中的“vb.net2.0_Lucene_test.rar_lucene_lucene vb.n_lucene.net vb”表明这是一个关于使用VB.NET 2.0版本实现Lucene搜索引擎的测试项目。Lucene是一个高性能、全文本搜索库,广泛应用于Java开发,而这里则是将...

    lucene对doc.xlsx操作包

    此外,还需要保留文档结构,以便在搜索结果中呈现。 三、处理doc.xlsx的工具与库 1. Apache POI:这是一个用于读写Microsoft Office格式文件的Java库,包括doc和xlsx。使用POI,我们可以解析xlsx文档,提取文本,...

    PanGu.Lucene.Analyzer.rar

    在实际应用中,开发者可以利用“PanGu.Lucene.Analyzer.dll”这个库,轻松集成到他们的Lucene项目中,从而提升中文文本的处理能力。无论是搜索引擎的构建,还是大数据分析系统,Pangu分析器都能提供强大的中文处理...

    Lucene.Net2.3.China中文注(个别连接超时)

    Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能. 不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,...

    Lucene.2.0.API

    《Lucene.2.0.API》是关于开源全文搜索引擎库Lucene的一个重要参考资料,它详尽地记录了Lucene 2.0版本的API接口及其使用方法。Lucene是一个由Apache软件基金会开发的Java全文检索库,它提供了高性能、可扩展的文本...

    lucene.jar.

    本文将围绕标题中的"lucene.jar"展开,深入探讨Lucene的核心概念、功能以及其在实际应用中的价值,并结合描述中的"lucene-1.4.3.jar.license.txt",讲解开源软件的许可协议对于项目的影响。 Lucene是一个由Apache...

    lucene-2.9.4.tar.gz

    通过理解和掌握Lucene的核心原理及使用方法,开发者可以构建出高效、精准的搜索应用,满足各种场景的需求。无论是初学者还是经验丰富的开发者,都应该深入了解这一开源项目,以提升自己的技术水平。

    lucene-project.zip

    1. **文档(Document)**:在Lucene中,文档是信息的基本单位,可以看作是数据库中的一条记录。文档由一系列的字段(Field)组成,每个字段都有一个唯一的名称,并且可以存储文本或二进制数据。 2. **字段(Field)...

Global site tag (gtag.js) - Google Analytics