提取关键词，并排序 - ttitfly的笔记 - ITeye博客

`

ttitfly

浏览: 626514 次
性别:
来自: 杭州

最近访客更多访客>>

xubbsun

xuwenyan

u011158808

zws

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xianzi_2008： xianzi_2008 写道楼主请教下，我缓存了一个List& ...
Ehcache
xianzi_2008：楼主请教下，我缓存了一个List<Bean>对象， ...
Ehcache
jsdsh：收藏好.五个字
hibernate之one-to-many详细
Tlife：好！！！！
hibernate------HQL总结
yanqingluo：例子很恰当。
观察者模式

提取关键词，并排序

博客分类：

搜索技术

阅读更多

java 代码

//提取内容关键字！对关键字重要性做排序筛选！
TermFreqVector contentFreqVector = reader.getTermFreqVector(docId, "itemContent");
if(contentFreqVector != null){
//生成TermVector ArryList!
List<termvector> contentVectorList = new ArrayList<termvector>(); </termvector></termvector>
for (int i = 0; i < contentFreqVector.size(); i++) {
String termWord=contentFreqVector.getTerms()[i];
String regex="[a-zA-Z]{4,}|[\u4E00-\u9fa5]{2,5}"; //英文4个以上，中文2到5个
boolean is = termWord.matches(regex);
if(is==true){
Term term = new Term("itemContent",contentFreqVector.getTerms()[i]);
TermVector termVector = new TermVector();
termVector.termWord = termWord;
termVector.termFreq = contentFreqVector.getTermFrequencies()[i];
// termVector.docFreq = searcher.docFreq(term);
//一般来说IDF值越大，权重越高，该词在全网出现的频率越小
termVector.IDF = searcher.getSimilarity().idf(term, searcher);
Similarity sim = Similarity.getDefault();
termVector.TF = sim.tf(contentFreqVector.getTermFrequencies()[i]);
contentVectorList.add(termVector);
}
}
//按照制定的算法进行排序！算法还需要完善需要考虑 TF/IDF 信息熵方面的东西！
Comparator<termvector> comp = new TermComparator(); </termvector>
Collections.sort(contentVectorList,comp);
class TermComparator implements Comparator {
public int compare(Object o1, Object o2) {
TermVector t1 = (TermVector) o1;
TermVector t2 = (TermVector) o2;
if (t1.getWeight() < t2.getWeight())
return 1;
else
return 0;
}
}
//Document itemDoc = reader.document(docId);

分享到：

数据挖掘关于分类方面 | lucene索引参数优化

2007-06-29 11:10
浏览 2536
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

提取关键词（Java版）: 首先，我们要理解“提取关键词”这一概念。关键词提取是找出文本中最能代表其主题的词语或短语的过程。在信息检索和文本挖掘中，它有助于快速概览文档内容和建立索引。Java版的关键词提取程序可以广泛应用于新闻分析...

ASP 自动提取关键词程序: 4. **关键词排序与去重**：最后，程序会将关键词按照其重要性排序，并去除重复项，生成最终的关键词列表。在实际应用中，ASP自动提取关键词程序可以集成到网站后台系统，每当有新的内容发布时，自动执行关键词提取...

C# 提取文章关键词: 代码实现从文章内容拆分，对词语进行排序，从而提取出现最多次数的词

JAVA开源关键词提取框架: 4. **排名与选择**：根据计算出的权重对所有单词进行排序，选取排名靠前的单词作为关键词。有时也会结合语义分析，考虑词语的上下文含义。 5. **优化**：最后，可能需要进行一些后处理，比如合并同义词、消除重复等...

文章关键词提取工具: 提取文章中的关键词，按词频提取，排序顺序是按词频高低。

C#提取内容最多的关键词排序，华人CMS首发: string text = File.ReadAllText("C#提取内容最多的关键词排序.txt"); // 预处理 text = Preprocess(text); // 分词 List<string> words = Tokenize(text); // 过滤停用词 words = FilterStopWords(words); ...

TextRank, TextRank算法提取关键词的Java实现.zip: - **排序并输出**：按照权重排序，选择权重最高的词汇作为关键词。 2. **Java实现**： - 在“TextRank-master”项目中，可能包含了类库用于文本预处理，如分词和停用词过滤。 - 可能有自定义的数据结构，如图的...

一个文章关键词提取工具: 5. **排序与展示**：最后，工具会按关键词的数量和重要性进行排序，并将结果呈现给用户。对于SEO而言，这些关键词可以用来优化网页内容，提高搜索引擎的可见性。在学术研究中，关键词提取有助于快速理解文献的主题...

NLPIR 关键词提取可用示例: 4. **关键词排序与提取**：计算出权重后，会根据权重对所有词进行排序，选择排名靠前的词语作为关键词。开发者可以根据实际需求设置关键词的数量。 5. **结果展示**：最后，示例会展示提取出的关键词，这些关键词...

文章关键词提取器 V.20100202: 一个直观的界面可以让用户方便地上传文本文档，查看提取结果，并可能提供了过滤、排序和导出等功能，以满足不同用户的需求。总的来说，《文章关键词提取器 V.20100202》通过运用先进的算法和智能的预处理技术，...

基于关键词提取的矩阵生成程序: 综上所述，这个程序实现了从文本中自动提取关键词，并通过构建对称矩阵来揭示关键词间的关联，为后续的文本分析提供便利。它可能被用于各种应用场景，如搜索引擎优化、推荐系统、话题发现等。通过理解和使用这样的...

Python-rakenltkPython实现使用NLTK的快速自动关键字提取算法: 5. **排序与筛选**：根据关联度对所有短语进行排序，选择排名较高的作为关键词。 `rake-nltk` 库提供了简单易用的接口，用户可以快速应用 RAKE 算法到自己的文本数据上。使用该库时，首先需要安装，可以通过 Python...

RAKE关键词提取python代码: 使用时，首先需要导入`RAKE`模块，然后创建`RAKE`对象，加载停用词列表，接着对文本进行处理并提取关键词： ```python from RAKE import Rake # 创建RAKE对象 rake = Rake('SmartStoplist.txt') # 输入文本 text =...

人工智能作业-同类多文档关键字提取: 2. TextRank：受到PageRank算法的启发，TextRank通过构建词汇间的共现网络并进行迭代排序来确定关键字。在每一轮迭代中，关键词的重要性会根据与其相邻的关键词的重要性更新。 3. LSA：通过奇异值分解（SVD）将文档...

语义分析之中文关键词提取: 4. **排序与输出**：最后，根据每个词汇的综合权重进行排序，并选取排名靠前的若干个词汇作为文章的关键词。 #### 四、新词发现算法详解新词发现算法主要分为以下几步： 1. **获取左邻接字和右邻接字**：计算目标...

基于特定语料库的TF-IDF的中文关键词提取: 最后，将TF和IDF相乘得到TF-IDF值，排序后选择得分最高的若干个词作为关键词。这个过程可以通过倒排索引实现，提高效率。在实际应用中，为了优化关键词提取效果，我们还可以引入其他策略，如词的上下文信息、词的...

java提取文章关键字: 1. **关键词提取算法**： - TF-IDF（Term Frequency-Inverse Document Frequency）：这是一种常用的方法，通过计算词频和逆文档频率来评估一个词的重要性。TF表示一个词在文档中的出现频率，IDF则考虑了这个词在...

中英文关键词提取方法与Python示例: 首先安装jieba库，然后通过以下代码提取关键词： ```python import jieba.analyse text = "这是一段中文文本，我们要从中提取关键词。" keywords = jieba.analyse.extract_tags(text, topK=10) print("中文...

Python-TextRank4ZH从中文文本中自动提取关键词和摘要: 4. 分析文本并提取关键词和摘要： ```python tr4w.analyze(text=text, lower=True) keywords = tr4w.get_keywords(10) # 获取前10个关键词 tr4s.analyze(text=text, lower=True) summary = [s.content for s in tr...

Global site tag (gtag.js) - Google Analytics