使用Lucene的Highlighter实现文件摘要的自动提取

pavel

浏览: 935427 次
性别:
来自: 北京

最近访客更多访客>>

macmilan

just_Word

沈寅麟

spedit

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

lucene 数据挖掘 Apache 框架领域模型

使用Lucene自带的Highlighter就可以实现对原始文件摘要的提取工作。Highlighter类有一个getBestFragment方法，这个方法有多个重载的方法，其中，使用：

public final String getBestFragment(Analyzer analyzer, String fieldName,String text)

就可以提取摘要，它实现了从指定的原始文件中，提取检索关键字出现频率最高的一段文字作为摘要，默认情况下提取100个字符，同时加上自定义的高亮显示代码，又可实现关键字高亮显示。

测试程序如下所示：

package org.shirdrn.lucene.learn.digest;

import java.io.IOException;

import net.teamhot.lucene.ThesaurusAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

public class ExtractDigest {

private String indexPath = "H:\\index";
private Analyzer analyzer;
private IndexSearcher searcher;
private String prefixHTML = "";
private String suffixHTML = "";

public ExtractDigest(){
 analyzer = new ThesaurusAnalyzer();
}

public void createIndex() throws IOException {
 IndexWriter writer = new IndexWriter(indexPath,analyzer,true);
 Document docA = new Document();
 String fileTextA = "挖掘频繁项集的方法可以扩展到挖掘闭频繁项集（由它们容易导出频繁项集的集合）。这些方法结合了附加的优化技术，如项合并、子项剪枝和项跳过，以及模式树中产生的项集的有效子集检查。挖掘频繁项集和关联已经用不同的方法扩展，包括挖掘多层关联规则和多维关联规则。多层关联规则可以根据每个抽象层的最小支持度阈值如何定义，使用多种策略挖掘。如一致的支持度、递减的支持度和基于分组的支持度。冗余的多层（后代）关联规则可以删除，如果根据其对应的祖先规则，他们的支持度和置信度接近于期望值的话。挖掘多维关联规则的技术可以根据对量化属性的处理分为若干类。第一，量化属性可以根据预定义的概念分层静态离散化。数据立方体非常适合这种方法，因为数据立方体和量化属性都可以利用概念分层。第二，可以挖掘量化关联规则，其中量化属性根据分箱和/或聚类动态离散化，“邻近的”关联规则可以用聚类合并，产生更简洁、更有意义的规则。基于约束的规则挖掘允许用户通过提供元规则（即模式模板）和其他挖掘约束对规则搜索聚焦。这种挖掘推动了说明性数据挖掘查询语言和用户界面的使用，并对挖掘查询优化提出了巨大挑战。规则约束可以分为五类：反单调的、单调的、简洁的、可转变的和不可转变的。前四类约束可以在频繁项集挖掘中使用，使挖掘更有功效，更有效率。没有进一步分析或领域知识，关联规则不应该直接用于预测。它们不必指示因果关系。然而，对于进一步探查，它们是有帮助的切入点，使得它们成为理解数据的流行工具。流数据不断地在计算机系统中流进流出并且具有变化的更新速度，涉及数据流的应用非常广泛。大纲提供数据流的汇总，通常用来返回查询的近似解答。随机抽样、滑动窗口、直方图、多分辨率方法、梗概以及随机算法都是大纲的形式。倾斜时间框架模型允许数据以多个时间粒度存储，最近的时间记录在最细的粒度上，最远的时间记录在最粗的粒度上。流立方体可以存储压缩的数据，对时间维度使用倾斜时间框架模型，并且仅在一些关键的层上存储数据，关键层反映了分析人员最感兴趣的数据层，从而基于到关键层的“常用路径”进行部分物化。";
 Field fieldA = new Field("contents", fileTextA, Field.Store.YES,Field.Index.TOKENIZED);
 docA.add(fieldA);

 Document docB = new Document();
 String fileTextB = " 数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。";
 Field fieldB = new Field("contents", fileTextB, Field.Store.YES,Field.Index.TOKENIZED);
 docB.add(fieldB);

 writer.addDocument(docA);
 writer.addDocument(docB);
 writer.optimize();
 writer.close();
}

public void search(String fieldName,String keyword) throws CorruptIndexException, IOException, ParseException{
 searcher = new IndexSearcher(indexPath);
 QueryParser queryParse = new QueryParser(fieldName, analyzer);
 Query query = queryParse.parse(keyword);
 Hits hits = searcher.search(query);
 for(int i=0;i<hits.length();i++){
 Document doc = hits.doc(i);
 String text = doc.get(fieldName);
 //System.out.println("||||||||||||"+text);
 int htmlLength = prefixHTML.length()+suffixHTML.length();
 System.out.println("高亮HTML的总长度为"+htmlLength);
 SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter(prefixHTML, suffixHTML);
 Highlighter highlighter = new Highlighter(simpleHTMLFormatter,new QueryScorer(query));
 String highLightText = highlighter.getBestFragment(analyzer,"contents",text);
 System.out.println("★高亮显示第 "+(i+1) +" 条检索结果如下所示：");
 System.out.println(highLightText);
 System.out.println("显示第 "+(i+1) +" 条检索结果摘要的长度为(含高亮HTML代码)："+highLightText.length());
 }
 searcher.close();
}

public static void main(String[] args) {
 ExtractDigest ed = new ExtractDigest();
 try {
 ed.createIndex();
 ed.search("contents", "根据挖掘");
 } catch (CorruptIndexException e) {
 e.printStackTrace();
 } catch (IOException e) {
 e.printStackTrace();
 } catch (ParseException e) {
 e.printStackTrace();
 }
}

}

上面程序，检索“根据挖掘”，首先使用QueryParser解析，提取Term为“根据”和“挖掘”，检索结果应该在提取的摘要中高亮显示这两个Term的text。

运行结果如下所示：

词库尚未被初始化，开始初始化词库.
初始化词库结束。用时:3985毫秒;
共添加195574个词语。
高亮HTML的总长度为25
★高亮显示第 1 条检索结果如下所示：
同的方法扩展，包括挖掘多层关联规则和多维关联规则。多层关联规则可以根据每个抽象层的最小支持度阈值如何定义，使用多种策略挖掘。如一致的支持度、递减的支持度和基于分组的支持度。冗余的多层（后代）关联规则
显示第 1 条检索结果摘要的长度为(含高亮HTML代码)：174
高亮HTML的总长度为25
★高亮显示第 2 条检索结果如下所示：
数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解
显示第 2 条检索结果摘要的长度为(含高亮HTML代码)：124

上面程序中，在进行分析的时候，构造Field，同时对指定原始文本进行了存储，如下所示：

Field fieldA = new Field("contents", fileTextA, Field.Store.YES,Field.Index.TOKENIZED);

这个Field.Store.YES指定的存储，但是在实际中这样会浪费存储空间，而且造成索引管理的困难，所以在实际中是直接从数据库中查询出原始文件的文本内容，然后对这个文本进行处理，对其进行提取摘要的操作。也就是在上面String text = doc.get(fieldName);这一步，text的内容是根据Document的ID，从数据库中查询出来的，避免了IO操作，从而提高了检索速度，而且便利了索引文件的管理。

分享到：

spring错误 | Lucene倒排索引原理

2009-02-06 16:52
浏览 6677
评论(1)
查看更多

1 楼 Zhang_amao 2015-11-22

我想问一下，你用的lucene版本和highligher的版本是哪个
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.term()Ljava/lang/String;
我这里总是出错

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论