`
wangxuliangboy
  • 浏览: 211548 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

lucene统计关键词匹配次数

阅读更多

IndexSearcher search = new IndexSearcher(dir);
IndexReader reader = search.getIndexReader();
if(reader instanceof SegmentReader){
SegmentReader sreader =(SegmentReader)reader;
//拿到Field的位置
      fieldPosition=sreader.getFieldInfos().fieldNumber("content");
}
//拿到content Field的坐标,频率等信息
TermPositionVector tpv = (TermPositionVector) reader.getTermFreqVector(id, "content");
// int fieldNumber = fieldInfos.fieldNumber(field);
int[] fre=tpv.getTermFrequencies();
//拿到词频
System.out.println(fre[fieldPosition]);

SegmentReader不是PUBLIC..修改下源文件.

 


2.reader.docFreq(new Term("",""))拿到整个索引文件Term中内容的词频

分享到:
评论

相关推荐

    一个基于lucene制作的搜索引擎源码

    在这个基于Lucene的搜索引擎源码中,我们可以深入理解如何利用Lucene进行索引创建、查询以及热门关键词存储。 首先,我们从"建立引擎索引"这一环节开始。在Lucene中,建立索引的过程包括以下几个步骤: 1. 文档...

    一个专业搜索公司关于lucene+solar资料(1)

    - 基于词典匹配、统计学习等方法进行中文分词。 - 需要考虑歧义词和未登录词等问题。 - **5.1.4 查找词典算法** - 使用前缀树等数据结构加速词典查询过程。 - 有助于提高分词效率。 **5.2 语法解析树** - **...

    JAVA快速统计文章词频.zip

    这项任务的目标是计算出文本中每个单词出现的次数,以便了解文本的主要主题或者关键词。以下是一些关于如何在Java中实现文章词频统计的关键知识点: 1. **字符串处理**: - 使用`String`类提供的方法如`...

    IkAnalyzer分词、词频、内链优化

    词频统计是搜索引擎优化的重要环节,通过统计文本中各词汇出现的次数,可以了解文档的主题和关键词分布。IkAnalyzer可以方便地进行词频统计,帮助我们分析文章内容,调整关键词布局,提升搜索引擎排名。 内链优化则...

    IKSegment分词源码

    词频统计是分析文本内容的重要手段,IKSegment通过遍历分词结果,统计每个词出现的次数,生成词频统计表。这对于信息检索、文本挖掘等应用场景具有重要意义,如关键词提取、主题模型建立等。 四、总词表构建 总...

    LuceneInformationRetrieval:FMI信息检索项目

    TF-IDF是一种用于衡量关键词在文档中重要性的统计方法,有助于识别哪些词对文档具有独特性。 - `showresults`:False值表示在此次请求中不显示实际的搜索结果。这可能意味着系统仅计算TF-IDF分数或者进行其他分析,...

    对JavaScript的全文搜索实现相关度评分的功能的方法

    在搜索查询时,查询中的每个关键词都会被赋予一个分数,最终得到与查询语句最匹配的文档。这种方法使得最相关的文档会排在搜索结果的前面,而与文档的创建时间无关。 当一个搜索语句中既包含常用词又包含稀有词时,...

Global site tag (gtag.js) - Google Analytics