Lucene增量索引的搜索结果重复的问题

hotsunshine

浏览: 703136 次
性别:
来自: 北京

最近访客更多访客>>

scholltop

heheda520

herman_liu76

rl724

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

lucene F#HTML

Lucene的增量索引没有那么智能，虽然根据文档所言，把下面的第三个参数设为false就是增量索引(true to create the index or overwrite the existing one; false to append to the existing index,注意这个append)。但是我发现，它与true的区别，仅仅在于不去删掉以前所有的索引文件而已，他并不能智能的分析到当前要被索引的文件是否已经被索引过，因此对先前文档作了修改，要重建索引的话，必须删除先前的这个文档所对应的索引

new IndexWriter(indexDir, new StandardAnalyzer(), false, new IndexWriter.MaxFieldLength(10000));

建立索引的关键步骤就是对IndexWriter添加Document，我是对文本文件进行分析的

File f = new File("text.txt");
Document doc = new Document();
doc.add(new Field("content", new FileReader(f))); // 由于文件内容比较大，没有保存，如果是要做高亮搜索词的话，需要保存，分析，并且指定词向量参数Field.TermVector
doc.add(new Field("title", "要被索引的字符串", Field.Store.YES, Field.Index.ANALYZED)); 
writer.addDocument(doc);

参数的说明：
Field.Store.YES表示要对这个字符串进行存储，Field.Index.ANALYZED表示要对个字符串进行分析

虽然设置了增量索引，如果运行两次这个索引的代码，然后去搜索的话，会出现两条相同的结果。考虑到，一条doc对应一个文件，便想着给doc添加一个唯一标示的字段，索引之前检测是否存在，如果已经存在删除之

doc.add(new Field("fileid", "自定义的id", Field.Store.YES, Field.Index.NOT_ANALYZED));

保存这个id字段，但是不要对这个字段进行分析，如果分析了，对索引结果会有影响。刚开始计划使用文本路径设置id，但是不起作用，只有文件名的话可以，但没有唯一性，id的定制很重要。

删除doc的代码

writer.deleteDocuments(new Term("fileid", "自定义的id"));

关于是用IndexWriter来删除还是用IndexReader来删除可以参考下面文章
http://www.cnblogs.com/huangfox/archive/2010/10/14/1851031.html
为保持数据一致，作者建议使用indexwriter来做删除操作

分享到：

Java判断文件类型是二进制文件还是文本文件 | thrift实现java与ruby的交互

2010-12-11 11:05
浏览 8080
评论(12)
分类:编程语言
查看更多

12 楼 hotsunshine 2012-05-16

u_lie 写道

.....没明白我意思，不过我明白了！谢谢你了

doc.add(new Field("content", new FileReader(f)));

FileReader方法为只读方法，没有能保存文件内容的属性。

想要保存文件内容就只能将文件内容读取出来转换成字符串，利用下面的形式

doc.add(new Field("title", "文件字符串", Field.Store.YES, Field.Index.ANALYZED));

我还以为这种方法很笨，有更好的方法呢~！哎！！

哈哈，不客气，祝贺。

11 楼 u_lie 2012-05-16

10 楼 hotsunshine 2012-05-16

u_lie 写道

大哥！我就最后问你一个问题！就是读取文件建立索引
doc.add(new Field("content", new FileReader(f)))
这个是不是不能保存啊？所以查询的时候content为空。
是不是只能保存字符串啊？没有更好的方法了吗~！请教下一最后这一个问题！谢谢了！

Field.Store.YES, Field.Index.ANALYZED

看见了没，stroe yes这个参数就是保存，后面那个是分析，文本是可以保存的

9 楼 u_lie 2012-05-16

8 楼 hotsunshine 2012-05-16

u_lie 写道

大哥~！还有个问题请教下，就是按照你上面的方法读取TXT文件建立索引后，为什么搜索时候content就是文件内容为空呢~！
还有大哥，如何获取文件内容摘要啊，小弟刚刚接触lucene好多地方发蒙，给贴点代码出来呗最好相信点的呵呵谢谢了~！

你上网搜一下，这个lucene的索引的文档，很多的，还有高亮代码之类的。你一定要搞明白哪些参数是什么意思，我没有时间给你一点点解释

7 楼 u_lie 2012-05-16

大哥~！可以给我解释下
doc.add(new Field("content", new FileReader(f))); // 由于文件内容比较大，没有保存，如果是要做高亮搜索词的话，需要保存，分析，并且指定词向量参数Field.TermVector

这句话的意思吗~！怎么才能保存啊，为什么我像这么写能够检索到，但是却获取不到文件内容呢~！代码该怎么写才能获取到文件内容啊~！请教一下

6 楼 u_lie 2012-05-16

哥哥我等你

5 楼 u_lie 2012-05-16

4 楼 hotsunshine 2012-05-14

u_lie 写道

请问下文件内容保存和高亮搜索的地方怎么做啊

给你一段代码你参考一下吧

 /**
   * 获取高亮字符串
   */
  public String makeHighlight(String str) {
    SimpleHTMLFormatter html_formater = new SimpleHTMLFormatter("<span class='search-highlight'>", "</span>");
    Highlighter highlighter = new Highlighter(html_formater, new QueryScorer(query));
    highlighter.setTextFragmenter(new SimpleFragmenter(200));

    String re_str = "";
    if (str != null) {
      TokenStream tokenStream = new IKAnalyzer().tokenStream("", new StringReader(str));
      try {
        re_str = highlighter.getBestFragment(tokenStream, str);
        if(re_str == null || "".equals(re_str)) re_str = str;
      } catch (IOException ex) {
        re_str = str;
      } catch (InvalidTokenOffsetsException ex) {
        re_str = str;
      }
    }
    return re_str;
  }

3 楼 u_lie 2012-05-14

请问下文件内容保存和高亮搜索的地方怎么做啊

2 楼 hotsunshine 2011-03-25

dongcb678 写道

大哥又没遇到过compass查询重复的问题应该也是索引重复了没头绪啊
qq 150584428

这个没用过，避免重复索引的话，设置一个唯一标示的id ，下一次再去索引的时候，把以前的干掉，再重建。昨天还看到一个方法，就是根据id找到索引，然后更新其中的一些域

1 楼 dongcb678 2011-03-23

大哥又没遇到过compass查询重复的问题应该也是索引重复了没头绪啊
qq 150584428

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论