有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”? -

forfuture1978

浏览: 422439 次
性别:
来自: 北京

最近访客更多访客>>

mushroom12

背着家走

DYM_NEVER

Not_Sky

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?

博客分类：

有关Lucene的问题

lucene 搜索引擎

问题：

使用中科院的中文分词对“中华人民共和国” 进行索引，它被分词为"中华", "人民", "共和国"，用“人民共和国”进行搜索，可以搜到，而搜索"中华共和国"却搜索不到，用“中华 AND 共和国”却可以搜出来，为什么？

回答：

我下载了http://ictclas.org/Download.html中科院的词做了简单的分析，如果索引的时候“中华人民共和国”被分成了“中华”“人民”“共和国”，而搜索的时候，搜“中华共和国”，则被分为了“中华共和国”，然而构建Query Parser构建Query Object的时候，却将它构建成了PhraseQuery—— contents:"中华共和国" ，而非BooleanQuery——contents:中华 contents:共和国，根据PhraseQuery的解释，它有一个参数slop来表示两个词之间的距离，默认为0，也即只有在文档不但包含“中华”而且包含“共和国”并且二者相邻的时候才能返回。这就是为什么“人民共和国”可以搜出来(它构建的是PhraseQuery，但是相邻)，“中华 AND 共和国”能搜索出来(它构建的是BooleanQuery)，而“中华共和国”搜不出来的原因(它构建的是PhraseQuery，但不相邻)。

尝试解析Query query = parser.parse("\"中华共和国\"~1")

或者用API设置Slop为1，就能搜索出结果了。

Query query = parser.parse("中华共和国");
PhraseQuery pquery = (PhraseQuery)query;
pquery.setSlop(1);

实例：

Analyzer ca = new ChineseAnalyzer();

QueryParser parser = new QueryParser(field, ca);

Query query1 = parser.parse("人民共和国");

System.out.println("Searching for: " + query1.toString(field));

查询对象为：

query1    PhraseQuery (id=39)
    boost    1.0
    field    "contents"
    maxPosition    1
    positions    ArrayList<E> (id=45)
    slop    0
    terms    ArrayList<E> (id=49)
        elementData    Object[4] (id=74)
            [0]    Term (id=76)
                field    "contents"
                text    "人民"
            [1]    Term (id=77)
                field    "contents"
                text    "共和国"

相当于查询语句：

Searching for: "人民共和国"

Query query2 = parser.parse("中华 AND 共和国");

System.out.println("Searching for: " + query2.toString(field));

查询对象为：

query2    BooleanQuery (id=43)
    boost    1.0
    clauses    ArrayList<E> (id=56)
        elementData    Object[10] (id=57)
            [0]    BooleanClause (id=59)
                occur    BooleanClause$Occur (id=62)
                    name    "MUST"
                query    TermQuery (id=65)
                    boost    1.0
                    term    Term (id=70)
                        field    "contents"
                        text    "中华"
            [1]    BooleanClause (id=61)
                occur    BooleanClause$Occur (id=62)
                    name    "MUST"
                query    TermQuery (id=64)
                    boost    1.0
                    term    Term (id=68)
                        field    "contents"
                        text    "共和国"

相当于查询语句：

Searching for: +中华 +共和国

Query query3 = parser.parse("\"中华共和国\"~1");

System.out.println("Searching for: " + query3.toString(field));

查询对象为：

query3    PhraseQuery (id=54)
    boost    1.0
    field    "contents"
    maxPosition    1
    positions    ArrayList<E> (id=93)
    slop    1
    terms    ArrayList<E> (id=94)
        elementData    Object[4] (id=96)
            [0]    Term (id=97)
                field    "contents"
                text    "中华"
            [1]    Term (id=98)
                field    "contents"
                text    "共和国"

相当于查询语句：

Searching for: "中华共和国"~1

Query query4 = parser.parse("中华共和国");

PhraseQuery pquery = (PhraseQuery)query4;

pquery.setSlop(1);

System.out.println("Searching for: " + query4.toString(field));

查询对象为：

query4    PhraseQuery (id=55)
    boost    1.0
    field    "contents"
    maxPosition    1
    positions    ArrayList<E> (id=102)
    slop    1
    terms    ArrayList<E> (id=103)
        elementData    Object[4] (id=105)
            [0]    Term (id=107)
                field    "contents"
                text    "中华"
            [1]    Term (id=108)
                field    "contents"
                text    "共和国"

相当于查询语句：

Searching for: "中华共和国"~1

分享到：

有关Lucene的问题(2):stemming和lemmatizat ... | Lucene学习总结之四：Lucene索引过程分析(4 ...

2010-02-06 12:37
浏览 4745
评论(3)
分类:编程语言
查看更多

3 楼 parabellum_sky 2010-07-14

可能就是把中华共和国当作一个自定义词组来存储了。
一旦搜索引擎碰到这个词，就不会去给它分词了。

2 楼 johnsoncr 2010-04-15

LZ分析得很好

1 楼 naughty610 2010-02-07

是因为辞典中含有中华共和国这个词。
这样在建立索引的时候，仅仅存储了这么一个词，而不是“中华”和“共和国”这两个词。
不知道回答的对不对，等待高人

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?

问题：

回答：

实例：

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?

问题：

回答：

实例：

评论

发表评论

相关推荐

有关Lucene的问题(8)：用Lucene构建实时索引的文档更新问题

有关Lucene的问题(7)：用Lucene构建实时的索引

有关Lucene的问题(6)：Lucene的事务性

有关Lucene的问题(5)：Lucene中的TooManyClause异常

有关Lucene的问题(4):影响Lucene对文档打分的四种方式

有关Lucene的问题(3): 向量空间模型与Lucene的打分机制

有关Lucene的问题(2):stemming和lemmatization

最近访客更多访客>>