lucene统计关键词匹配次数 - wangxuliangboy - ITeye博客

`

wangxuliangboy

浏览: 211548 次
性别:
来自: 上海

最近访客更多访客>>

wl52065

huangyongxing310

bugzhuming

chq562656437

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (52)

社区版块

存档分类

最新评论

quasimodo_es：你好，我在compass + terracotta 整合的时候 ...
Compass源码解析
Mr0o0rM： [align=right][/align]
根据时区获取时间的方法
Mr0o0rM： [b][/b]
根据时区获取时间的方法
ftp2010：我用java'的库也验证过，用public key解密priv ...
RSA对称加密报错原因
ftp2010：这个说法正确吗？RSA 算法的公钥和私鈅是对称的啊私鈅加密的公 ...
RSA对称加密报错原因

lucene统计关键词匹配次数

阅读更多

IndexSearcher search = new IndexSearcher(dir);
IndexReader reader = search.getIndexReader();
if(reader instanceof SegmentReader){
SegmentReader sreader =(SegmentReader)reader;
//拿到Field的位置
fieldPosition=sreader.getFieldInfos().fieldNumber("content");
}
//拿到content Field的坐标,频率等信息
TermPositionVector tpv = (TermPositionVector) reader.getTermFreqVector(id, "content");
// int fieldNumber = fieldInfos.fieldNumber(field);
int[] fre=tpv.getTermFrequencies();
//拿到词频
System.out.println(fre[fieldPosition]);

SegmentReader不是PUBLIC..修改下源文件.

2.reader.docFreq(new Term("",""))拿到整个索引文件Term中内容的词频

分享到：

lucene一些记录 | NIO实例

2009-04-10 20:47
浏览 2777
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

一个基于lucene制作的搜索引擎源码: 在这个基于Lucene的搜索引擎源码中，我们可以深入理解如何利用Lucene进行索引创建、查询以及热门关键词存储。首先，我们从"建立引擎索引"这一环节开始。在Lucene中，建立索引的过程包括以下几个步骤： 1. 文档...

一个专业搜索公司关于lucene+solar资料(1): - 基于词典匹配、统计学习等方法进行中文分词。 - 需要考虑歧义词和未登录词等问题。 - **5.1.4 查找词典算法** - 使用前缀树等数据结构加速词典查询过程。 - 有助于提高分词效率。 **5.2 语法解析树** - **...

JAVA快速统计文章词频.zip: 这项任务的目标是计算出文本中每个单词出现的次数，以便了解文本的主要主题或者关键词。以下是一些关于如何在Java中实现文章词频统计的关键知识点： 1. **字符串处理**： - 使用`String`类提供的方法如`...

IkAnalyzer分词、词频、内链优化: 词频统计是搜索引擎优化的重要环节，通过统计文本中各词汇出现的次数，可以了解文档的主题和关键词分布。IkAnalyzer可以方便地进行词频统计，帮助我们分析文章内容，调整关键词布局，提升搜索引擎排名。内链优化则...

IKSegment分词源码: 词频统计是分析文本内容的重要手段，IKSegment通过遍历分词结果，统计每个词出现的次数，生成词频统计表。这对于信息检索、文本挖掘等应用场景具有重要意义，如关键词提取、主题模型建立等。四、总词表构建总...

LuceneInformationRetrieval:FMI信息检索项目: TF-IDF是一种用于衡量关键词在文档中重要性的统计方法，有助于识别哪些词对文档具有独特性。 - `showresults`：False值表示在此次请求中不显示实际的搜索结果。这可能意味着系统仅计算TF-IDF分数或者进行其他分析，...

对JavaScript的全文搜索实现相关度评分的功能的方法: 在搜索查询时，查询中的每个关键词都会被赋予一个分数，最终得到与查询语句最匹配的文档。这种方法使得最相关的文档会排在搜索结果的前面，而与文档的创建时间无关。当一个搜索语句中既包含常用词又包含稀有词时，...

Global site tag (gtag.js) - Google Analytics