`

lucene MoreLikeThis

阅读更多

Leveraging term vectors
所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率.

如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的选项:

Field options for term vectors
TermVector.YES – record the unique terms that occurred, and their counts, in each document, but do not store any positions or offsets information.
TermVector.WITH_POSITIONS – record the unique terms and their counts, and also the positions of each occurrence of every term, but no offsets.
TermVector.WITH_OFFSETS – record the unique terms and their counts, with the offsets (start & end character position) of each occurrence of every term, but no positions.
TermVector.WITH_POSITIONS_OFFSETS – store unique terms and their counts, along with positions and offsets.
TermVector.NO – do not store any term vector information.
If Index.NO is specified for a field, then you must also specify TermVector.NO.

这样在index完后, 给定这个document id和field名称, 我们就可以从IndexReader读出这个term vector(前提是你在indexing时创建了terms vector):
TermFreqVector termFreqVector = reader.getTermFreqVector(id, "subject");
你可以遍历这个TermFreqVector去取出每个词和词频, 如果你在index时选择存下offsets和positions信息的话, 你在这边也可以取到.

有了这个term vector我们可以做一些有趣的应用:
1) Books like this
比较两本书是否相似,把书抽象成一个document文件, 具有author, subject fields. 那么现在就通过这两个field来比较两本书的相似度.
author这个field是multiple fields, 就是说可以有多个author, 那么第一步就是比author是否相同,
String[] authors = doc.getValues("author");
BooleanQuery authorQuery = new BooleanQuery(); // #3
for (int i = 0; i < authors.length; i++) { // #3
    String author = authors[i]; // #3
    authorQuery.add(new TermQuery(new Term("author", author)), BooleanClause.Occur.SHOULD); // #3
}
authorQuery.setBoost(2.0f);
最后还可以把这个查询的boost值设高, 表示这个条件很重要, 权重较高, 如果作者相同, 那么就很相似了.
第二步就用到term vector了, 这里用的很简单, 单纯的看subject field的term vector中的term是否相同,
TermFreqVector vector = // #4
reader.getTermFreqVector(id, "subject"); // #4
BooleanQuery subjectQuery = new BooleanQuery(); // #4
for (int j = 0; j < vector.size(); j++) { // #4
    TermQuery tq = new TermQuery(new Term("subject", vector.getTerms()[j]));
    subjectQuery.add(tq, BooleanClause.Occur.SHOULD); // #4
}

2) What category?
这个比上个例子高级一点, 怎么分类了,还是对于document的subject, 我们有了term vector.
所以对于两个document, 我们可以比较这两个文章的term vector在向量空间中的夹角, 夹角越小说明这个两个document越相似.
那么既然是分类就有个训练的过程, 我们必须建立每个类的term vector作为个标准, 来给其它document比较.
这里用map来实现这个term vector, (term, frequency), 用n个这样的map来表示n维. 我们就要为每个category来生成一个term vector, category和term vector也可以用一个map来连接.创建这个category的term vector, 这样做:
遍历这个类中的每个document, 取document的term vector, 把它加到category的term vector上.
private void addTermFreqToMap(Map vectorMap, TermFreqVector termFreqVector) {
    String[] terms = termFreqVector.getTerms();
    int[] freqs = termFreqVector.getTermFrequencies();
    for (int i = 0; i < terms.length; i++) {
        String term = terms[i];
        if (vectorMap.containsKey(term)) {
            Integer value = (Integer) vectorMap.get(term);
            vectorMap.put(term, new Integer(value.intValue() + freqs[i]));
        } else {
            vectorMap.put(term, new Integer(freqs[i]));
        }
   }
}
首先从document的term vector中取出term和frequency的list, 然后从category的term vector中取每一个term, 把document的term frequency加上去.OK了

有了这个每个类的category, 我们就要开始计算document和这个类的向量夹角了
cos = A*B/|A||B|
A*B就是点积, 就是两个向量每一维相乘, 然后全加起来.
这里为了简便计算, 假设document中term frequency只有两种情况, 0或1.就表示出现或不出现
private double computeAngle(String[] words, String category) {
    // assume words are unique and only occur once
    Map vectorMap = (Map) categoryMap.get(category);
    int dotProduct = 0;
    int sumOfSquares = 0;
    for (int i = 0; i < words.length; i++) {
        String word = words[i];
        int categoryWordFreq = 0;
        if (vectorMap.containsKey(word)) {
            categoryWordFreq = ((Integer) vectorMap.get(word)).intValue();
        }
        dotProduct += categoryWordFreq; // optimized because we assume frequency in words is 1
        sumOfSquares += categoryWordFreq * categoryWordFreq;
    }
    double denominator;
    if (sumOfSquares == words.length) {
        // avoid precision issues for special case
        denominator = sumOfSquares; // sqrt x * sqrt x = x
    } else {
        denominator = Math.sqrt(sumOfSquares) *
        Math.sqrt(words.length);
    }
    double ratio = dotProduct / denominator;
    return Math.acos(ratio);
}
这个函数就是实现了上面那个公式还是比较简单的.

3) MoreLikeThis

对于找到比较相似的文档,lucene还提供了个比较高效的接口,MoreLikeThis接口

http://lucene.apache.org/java/1_9_1/api/org/apache/lucene/search/similar/MoreLikeThis.html

对于上面的方法我们可以比较每两篇文档的余弦值,然后对余弦值进行排序,找出最相似的文档,但这个方法的最大问题在于计算量太大,当文档数目很大时,几乎是无法接受的,当然有专门的方法去优化余弦法,可以使计算量大大减少,但这个方法精确,但门槛较高。

这个接口的原理很简单,对于一篇文档中,我们只需要提取出interestingTerm(即tf×idf高的词),然后用lucene去搜索包含相同词的文档,作为相似文档,这个方法的优点就是高效,但缺点就是不准确,这个接口提供很多参数,你可以配置来选择interestingTerm。

MoreLikeThis mlt = new MoreLikeThis(ir);

Reader target = ...

// orig source of doc you want to find similarities to

Query query = mlt.like( target);

Hits hits = is.search(query);

用法很简单,这样就可以得到,相似的文档

这个接口比较灵活,你可以不直接用like接口,而是用
retrieveInterestingTerms(Reader r)

这样你可以获得interestingTerm,然后怎么处理就根据你自己的需要了。
分享到:
评论

相关推荐

    Lucene MoreLikeThis实例

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    Lucene-MoreLikeThis-example:使用 Java 和 Lucene 4.2 的 MoreLikeThis 代码示例

    Lucene MoreLikeThis 示例 - 搜索相似文档使用 Java 和 Lucene 4.2 的 MoreLikeThis 代码示例安装假设你已经安装了 Maven。 您可以运行以下命令: mvn eclipse:eclipse将 Lucene 下载到您的 Maven 目录并创建工作 ...

    Wikipedia2Lucene:从HDFS导入Wikipedia XML转储到Lucene索引或Elasticsearch,并基于Lucene的MoreLikeThis查询检索类似的Wikipedia文章

    从HDFS导入Wikipedia XML转储到Lucene索引或Elasticsearch,并基于Lucene的MoreLikeThis查询检索类似的Wikipedia文章。 此应用程序是基于文本的文档相似性度量的实现,该度量被用作的研究中的基准度量。 将...

    lucene1.4.3 API

    - **More Like This**:基于文档内容的“类似文档”查询。 4. **性能优化**: - **缓存**:使用TermFreqVector缓存提高查询速度。 - **批量索引**:一次处理大量文档,减少磁盘I/O次数。 - **段合并**:定期...

    apache solr1.3.0所有最新开发包及源码及文档

    组件包括现有的功能如faceting(多侧面搜索),同时添加More Like This(更多类似的), Editorial Boosting (Query Elevation查询扩展) 和Spell Checking(拼写检查)。 ——为了更容易索引数据库内容到Solr,建立...

    Solr in Action 英文版完整版

    RETAIL SELLING POINTS Clearly-written comprehensive guide In-depth coverage of Solr 4 Uses real-world examples backed by years of experience AUDIENCE This book assumes some knowledge of Java and ...

    solr开发指南.zip

    除了以上基本功能,Solr还有许多高级特性,如 Spell Checking(拼写检查)、Synonyms(同义词处理)、Highlighting(高亮显示)、Faceting(分面搜索)、Clustering(聚类)和More Like This(类似文档推荐)等。...

    j2ee面试考察点.pdf

    5. **文本相似度计算**:如`MoreLikeThis`算法,找出与给定文档相似的其他文档。 6. **自定义排序**:在Lucene中,可以通过实现`FieldComparatorSource`、`Similarity`和`Collector`进行自定义排序逻辑,满足特定...

    solr实现的搜索引擎

    Solr还包含许多高级特性,如 faceting(分类统计)、spell checking(拼写检查)、highlighting(高亮显示)、more like this(类似文档推荐)等,这些功能在`webapp`中的代码可能有具体实现。 结合《解密搜索引擎...

    PyPI 官网下载 | scorched-0.3.zip

    3. **查询接口**:提供简单和复杂的查询构造器,支持 Lucene 查询语法和 Solr 的 Faceting、Highlighting、MoreLikeThis 等高级功能。 4. **结果处理**:返回查询结果时,Scorched 可以解析 Solr 的 JSON 或 XML ...

    solr-4.9.1

    7. **请求处理器和插件**:Solr支持各种请求处理器(Request Handlers)和搜索组件(Search Components),如标准请求处理器(Standard Request Handler)、更多结果请求处理器(MoreLikeThis Handler)等,这些都...

    ElasticSearch安装包

    ElasticSearch 是一个基于Lucene构建的开源,分布式...Stack Overflow 将地理位置查询融入全文检索中去,并且使用 more-like-this 接口去查找相关的问题与答案。 GitHub 使用 Elasticsearch 对1300亿行代码进行查询。

    Solr in Action最新完整版

    RETAIL SELLING POINTS Clearly-written comprehensive guide In-depth coverage of Solr 4 Uses real-world examples backed by years of experience AUDIENCE This book assumes some knowledge of Java and ...

    Apache Solr [Apache Con 2006]

    Each `&lt;field&gt;` element represents a field within the document, and attributes like `name` define the field name. The `boost` attribute can be used to influence the relevance score of the document. ##...

    Solr全文索引

    - **More Like This**:根据已知文档推荐相似的文档。 5. **C#项目集成** - **NuGet安装**:在C#项目中,可以通过NuGet包管理器安装SolrNet库,确保所有依赖项都已就绪。 - **配置连接**:设置Solr服务器的URL,...

    ElasticSearch可扩展的开源弹性搜索解决方案.docx

    - **more_like_this_field**:类似于 more_like_this,但仅应用于单个字段。 - **range**:在数值型或字符串型字段上进行范围查询。 ##### D. 过滤查询结果 - **filter**:在查询中添加 filter 字段可以进一步筛选...

    es入门操作-elasticsearch入门操作

    1.STACK OVERFLOW:使用 Elasticsearch 对地理位置查询进行融合,全文检索中去,并且使用more-like-this接口去查找相关的问题与答案。 2.GitHub:使用 Elasticsearch 对 1300 亿行代码进行查询。 3.Wikipedia:使用 ...

Global site tag (gtag.js) - Google Analytics