使用Lucene的Highlighter实现文件摘要的自动提取 -

zfsn

浏览: 352332 次
性别:
来自: 北京

最近访客更多访客>>

ks2144634

testjiang3

livizy

liuxiao723846

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

使用Lucene的Highlighter实现文件摘要的自动提取

博客分类：

Lucene

lucene 数据挖掘 Apache 框架领域模型

使用Lucene自带的Highlighter就可以实现对原始文件摘要的提取工作。Highlighter类有一个getBestFragment方法，这个方法有多个重载的方法，其中，使用：

public final String getBestFragment(Analyzer analyzer, String fieldName,String text)

就可以提取摘要，它实现了从指定的原始文件中，提取检索关键字出现频率最高的一段文字作为摘要，默认情况下提取100个字符，同时加上自定义的高亮显示代码，又可实现关键字高亮显示。

测试程序如下所示：

package org.shirdrn.lucene.learn.digest;

import java.io.IOException;

import net.teamhot.lucene.ThesaurusAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

public class ExtractDigest {

private String indexPath = "H:\\index";
private Analyzer analyzer;
private IndexSearcher searcher;
private String prefixHTML = "";
private String suffixHTML = "";

public ExtractDigest(){
 analyzer = new ThesaurusAnalyzer();
}

public void createIndex() throws IOException {
 IndexWriter writer = new IndexWriter(indexPath,analyzer,true);
 Document docA = new Document();
 String fileTextA = "挖掘频繁项集的方法可以扩展到挖掘闭频繁项集（由它们容易导出频繁项集的集合）。这些方法结合了附加的优化技术，如项合并、子项剪枝和项跳过，以及模式树中产生的项集的有效子集检查。挖掘频繁项集和关联已经用不同的方法扩展，包括挖掘多层关联规则和多维关联规则。多层关联规则可以根据每个抽象层的最小支持度阈值如何定义，使用多种策略挖掘。如一致的支持度、递减的支持度和基于分组的支持度。冗余的多层（后代）关联规则可以删除，如果根据其对应的祖先规则，他们的支持度和置信度接近于期望值的话。挖掘多维关联规则的技术可以根据对量化属性的处理分为若干类。第一，量化属性可以根据预定义的概念分层静态离散化。数据立方体非常适合这种方法，因为数据立方体和量化属性都可以利用概念分层。第二，可以挖掘量化关联规则，其中量化属性根据分箱和/或聚类动态离散化，“邻近的”关联规则可以用聚类合并，产生更简洁、更有意义的规则。基于约束的规则挖掘允许用户通过提供元规则（即模式模板）和其他挖掘约束对规则搜索聚焦。这种挖掘推动了说明性数据挖掘查询语言和用户界面的使用，并对挖掘查询优化提出了巨大挑战。规则约束可以分为五类：反单调的、单调的、简洁的、可转变的和不可转变的。前四类约束可以在频繁项集挖掘中使用，使挖掘更有功效，更有效率。没有进一步分析或领域知识，关联规则不应该直接用于预测。它们不必指示因果关系。然而，对于进一步探查，它们是有帮助的切入点，使得它们成为理解数据的流行工具。流数据不断地在计算机系统中流进流出并且具有变化的更新速度，涉及数据流的应用非常广泛。大纲提供数据流的汇总，通常用来返回查询的近似解答。随机抽样、滑动窗口、直方图、多分辨率方法、梗概以及随机算法都是大纲的形式。倾斜时间框架模型允许数据以多个时间粒度存储，最近的时间记录在最细的粒度上，最远的时间记录在最粗的粒度上。流立方体可以存储压缩的数据，对时间维度使用倾斜时间框架模型，并且仅在一些关键的层上存储数据，关键层反映了分析人员最感兴趣的数据层，从而基于到关键层的“常用路径”进行部分物化。";
 Field fieldA = new Field("contents", fileTextA, Field.Store.YES,Field.Index.TOKENIZED);
 docA.add(fieldA);

 Document docB = new Document();
 String fileTextB = " 数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。";
 Field fieldB = new Field("contents", fileTextB, Field.Store.YES,Field.Index.TOKENIZED);
 docB.add(fieldB);

 writer.addDocument(docA);
 writer.addDocument(docB);
 writer.optimize();
 writer.close();
}

public void search(String fieldName,String keyword) throws CorruptIndexException, IOException, ParseException{
 searcher = new IndexSearcher(indexPath);
 QueryParser queryParse = new QueryParser(fieldName, analyzer);
 Query query = queryParse.parse(keyword);
 Hits hits = searcher.search(query);
 for(int i=0;i<hits.length();i++){
 Document doc = hits.doc(i);
 String text = doc.get(fieldName);
 //System.out.println("||||||||||||"+text);
 int htmlLength = prefixHTML.length()+suffixHTML.length();
 System.out.println("高亮HTML的总长度为"+htmlLength);
 SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter(prefixHTML, suffixHTML);
 Highlighter highlighter = new Highlighter(simpleHTMLFormatter,new QueryScorer(query));
 String highLightText = highlighter.getBestFragment(analyzer,"contents",text);
 System.out.println("★高亮显示第 "+(i+1) +" 条检索结果如下所示：");
 System.out.println(highLightText);
 System.out.println("显示第 "+(i+1) +" 条检索结果摘要的长度为(含高亮HTML代码)："+highLightText.length());
 }
 searcher.close();
}

public static void main(String[] args) {
 ExtractDigest ed = new ExtractDigest();
 try {
 ed.createIndex();
 ed.search("contents", "根据挖掘");
 } catch (CorruptIndexException e) {
 e.printStackTrace();
 } catch (IOException e) {
 e.printStackTrace();
 } catch (ParseException e) {
 e.printStackTrace();
 }
}

}

上面程序，检索“根据挖掘”，首先使用QueryParser解析，提取Term为“根据”和“挖掘”，检索结果应该在提取的摘要中高亮显示这两个Term的text。

运行结果如下所示：

词库尚未被初始化，开始初始化词库.
初始化词库结束。用时:3985毫秒;
共添加195574个词语。
高亮HTML的总长度为25
★高亮显示第 1 条检索结果如下所示：
同的方法扩展，包括挖掘多层关联规则和多维关联规则。多层关联规则可以根据每个抽象层的最小支持度阈值如何定义，使用多种策略挖掘。如一致的支持度、递减的支持度和基于分组的支持度。冗余的多层（后代）关联规则
显示第 1 条检索结果摘要的长度为(含高亮HTML代码)：174
高亮HTML的总长度为25
★高亮显示第 2 条检索结果如下所示：
数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解
显示第 2 条检索结果摘要的长度为(含高亮HTML代码)：124

上面程序中，在进行分析的时候，构造Field，同时对指定原始文本进行了存储，如下所示：

Field fieldA = new Field("contents", fileTextA, Field.Store.YES,Field.Index.TOKENIZED);

这个Field.Store.YES指定的存储，但是在实际中这样会浪费存储空间，而且造成索引管理的困难，所以在实际中是直接从数据库中查询出原始文件的文本内容，然后对这个文本进行处理，对其进行提取摘要的操作。也就是在上面String text = doc.get(fieldName);这一步，text的内容是根据Document的ID，从数据库中查询出来的，避免了IO操作，从而提高了检索速度，而且便利了索引文件的管理。

分享到：

firefox兼容ie读取xml节点方法的解决方案 ... | Spring事务配置的五种方式

2010-07-03 15:19
浏览 1426
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用Lucene的Highlighter实现文件摘要的自动提取

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用Lucene的Highlighter实现文件摘要的自动提取

评论

发表评论

相关推荐

布隆过滤器（Bloom Filter）之java实例

Lucene查询语法详解

ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注

Lucene日期排序及组合查询

Lucene中自定义排序的实现

在Lucene中应用poading进行分词

用Lucene实现摘要的高亮点

Lucene日期索引搜索

Lucene 中文引擎，庖丁解牛的辞典参数配置方法

Lucene 2.4更新索引的方法(Update Index)

庖丁解牛的Lucene 2.4的全文搜索代码

Lucene 搜索方式

转一篇lucene的使用的文章，写的比较全

最近访客更多访客>>

ICTCLAS 中科院分词系统代码注释中文分词词性标注