Lucene简单介绍

浏览 8568 次

锁定老帖子主题：Lucene简单介绍精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
jefferson 等级: 性别: 文章: 13 积分: 290	发表时间：2006-11-16 相关推荐: AutoCAD数据库连接入门 VLisp 翻译 Excel Vba 代码的方法 AutoCAD二次开发：实现CAD启动时自动加载DLL Lisp 操作 Excel 三例正则表达式的属性和方法更多相关推荐入门技术 Lucene 使用Lucene作为搜索引擎，应用系统需要做两件事情：（1）建立索引文件。下面给一个接口SearchManager来定义一般要用到的方法。 SearchManager代码如下： java 代码 public interface SearchManager { public boolean isSearchEnabled(); public void setSearchEnabled(boolean searchEnabled); / //如果SearchManage正在工作，返回真 public boolean isBusy(); //返回索引完成率 public int getPercentComplete(); //是否自动建立索引 //通过TaskEngine.scheduleTask方法实现定期自动索引 public boolean isAutoIndexEnabled(); public void setAutoIndexEnabled(boolean value); //自动索引间隔的分钟数 public int getAutoIndexInterval(); public void setAutoIndexInterval(int minutes); //获得上次建立索引的时间 public Date getLastIndexedDate(); //在实时建立索引时，将当前帖子加入索引 public void addToIndex(ForumMessage message); public void removeFromIndex(ForumMessage message); //手动更新自上次建立索引后的新内容 public void updateIndex(); //手动重新建立全部的索引 public void rebuildIndex(); //优化 public void optimize(); } · IndexWriter用户建立新的索引，当然也可以将文档加入已经存在的索引。在文本被索引之前，它必须通过一个分析器Analyzer。分析器Analyzer 负责从文本中分离出索引关键字。Lucene有几种不同类型的分析器： · SimpleAnalyzer是将英文转换为小写字母，按空格和标点符号切分出英文单词，如I am Java这一句，使用SimpleAnalyzer切词就会切分出下列词语： token1=I token2=am token3=Java · StandardAnalyzer是对英文进行了较为复杂的处理。除了按词语建立索引关键字（token）外，还能够为特殊名称、邮件地址、缩写格式等建立索引单元，而且对“and”、“ the”等词语做了过滤。 · ChineseAnalyzer是专门用来分析中文的索引的。关于中文分析器，有很多尝试，如车东的http://sourceforge.net/projects/weblucene/；等，该问题将在后面章节继续讨论。一个索引是由一系列Document组成，每个Document是由一个或多个Field组成，每个Field都有一个名字和值，可以把Document作为关系数据库中一条记录，而Field则是记录中某列字段。一般建立索引如下： java 代码 //指定将在哪个目录建立索引 String indexDir = "/home/"; //指定将要建立索引的文本 String text = "welcom here, I am Java,"; Analyzer analyzer = new StandardAnalyzer(); //使用StandardAnalyzer //建立一个IndexWriter IndexWriter writer = new IndexWriter(indexDir, analyzer, true); //建立Document Document document = new Document(); //进行切词、索引 document.add(Field.Text("fieldname", text)); //加入索引中 writer.addDocument(document); writer.close(); 其中，Field根据具体要求有不同用法，Lucene提供4种类型的Field: Keyword、 UnIndexed、 UnStored和 Text。 · Keyword 不实现切词，逐字地保存在索引中，这种类型适合一些如URL、日期、个人姓名、社会安全号码、电话号码等需要原封不动保留的词语。 · UnIndexed既不实现切词也不索引，但是其值是一个词一个词地保存在索引中，这不适合很大很长的词语，适合于显示一些不经过直接搜索的结果值。 · UnStored与UnIndexed正好相反，将被切词和索引，但是不保存在索引中，这适合巨大文本，如帖子内容、页面内容等。 · Text是实现切词、索引，并且保存在索引中。上面是建立或者添加索引，那么如何删除索引呢？建立索引后，每个所有对应一个org.apache.lucene.index.Term对象，那么可以根据索引的KEYWORD创建一个Term对象， Term messageIDTerm =new Term("mID", Long.toString(indexId));** 然后： IndexReader reader = IndexReader.open(indexDir); 通过IndexReader的delete方法删除指定的索引 reader.delete(messageIDTerm); 这里，建立索引的时候，keyword名称指定为mID （2）建立完成后，就可以直接搜索特定的词语了。搜索语句一般代码如下： Searcher searcher = new IndexSearcher((indexDir); //创建一个搜索器也可以这样创建： Directory searchDirectory = FSDirectory.getDirectory(indexPath, false); IndexReader reader = IndexReader.open(searchDirectory); Searcher searcher = new IndexSearcher(reader); //使用和索引同样的语言分析器 Query query = QueryParser.parse(queryString, "body", new StandardAnalyzer()); //搜索结果使用Hits存储 Hits hits = searcher.search(query); //通过hits得到相应字段的数据和查询的匹配度 for (int i=0; i System.out.println(hits.doc(i).get("fieldname ")); }; 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

jefferson 等级: 性别: 文章: 13 积分: 290	发表时间：2006-11-16 继续，过滤器的使用 1、field的过滤器： Filter.add(new FieldFilter("字段名", 字段值)); 2、日期的过滤器： a、 Filter.add(new DateFilter("creationDate", beforeDate, afterDate)); b、 Filter.add(DateFilter.After("creationDate", afterDate)); c、 Filter.add(DateFilter.Before("creationDate", beforeDate)); 最后，将过滤器作为参数传入查询方法： searcher.search(query, Filter);
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 入门技术版

跳转论坛: