lucene 2.9的简单使用

i2534

浏览: 183505 次
性别:
来自: 北京

最近访客更多访客>>

Li_jin_yang

rocex

SoftHt

luoyanbo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

util

lucene Apache Java F#

项目做的很杂，又用到了lucene对特定文件的内容进行搜索，检查特定词汇。

经过查资料，看demo，实验，终于写出来了。

ps：网上的资料大部分很老啊，类老是对不上号。

先建立索引

import java.io.File;
import java.io.FileFilter;
import java.io.FileReader;
import java.io.IOException;
import java.io.Reader;
import java.util.HashSet;
import java.util.Set;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.wltea.analyzer.lucene.IKAnalyzer;
import vrvclient.util.ConfigUtil;
import vrvclient.util.FileListUtil;

/**
 *
 * @author lan
 */
public class Indexer extends Constants {

    private static final Log log = LogFactory.getLog(Indexer.class);

    public void index(File[] files, FileFilter filter) {
        if (files == null) {
            return;
        }
//        System.out.println(filter.getClass());
        Set<File> set = new HashSet<File>();
        for (File f : files) {//过滤掉不合要求的文件，如后缀，文件名等
            FileListUtil.list(f, filter, set);
        }
        File indexDir = new File(ConfigUtil.getIndexPath());//这里是获得索引文件的保存路径的
        Analyzer analyzer = new IKAnalyzer();//使用国产的IK分词器，很好很强大
        try {
            FSDirectory dir = FSDirectory.open(indexDir);//保存到硬盘上
            IndexWriter iw = new IndexWriter(dir, analyzer, !IndexReader.indexExists(dir), IndexWriter.MaxFieldLength.LIMITED);
            for (File f : set) {
                if (f.isFile()) {
//                    System.out.println(f.getAbsolutePath());
                    Document doc = new Document();
                    Reader reader = new FileReader(f);
                    doc.add(new Field(PATH, f.getAbsolutePath(), Field.Store.YES, Field.Index.ANALYZED));//保存路径
                    doc.add(new Field(FILE, reader));//保存文件
                    iw.addDocument(doc);
                    reader.close();
                }
            }
            iw.optimize();
            iw.close();
        } catch (CorruptIndexException ex) {
            log.error(ex.getMessage(), ex);
        } catch (LockObtainFailedException ex) {
            log.error(ex.getMessage(), ex);
        } catch (IOException ex) {
            log.error(ex.getMessage(), ex);
        }
    }
}

这个是搜索结果

import java.io.File;
import java.io.IOException;
import java.util.HashSet;
import java.util.Set;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.FSDirectory;
import org.wltea.analyzer.lucene.IKAnalyzer;
import vrvclient.util.ConfigUtil;

/**
 *
 * @author lan
 */
public class Searcher extends Constants {

    private static final Log log = LogFactory.getLog(Indexer.class);

    /**
     *
     * @param contents
     * @param combineMode true = and,false = or
     * @param limit -1=all
     */
    public Set<String> search(String[] contents, boolean combineMode, int limit) {
        Set<String> paths = new HashSet<String>();
        try {
            File indexDir = new File(ConfigUtil.getIndexPath());
            FSDirectory fsd = FSDirectory.open(indexDir);
            IndexSearcher is = new IndexSearcher(fsd, true);
            Analyzer analyzer = new IKAnalyzer();
            if (fsd.getFile().exists()) {
                QueryParser qp = new QueryParser(FILE, analyzer);
                StringBuilder sb = new StringBuilder();
                String jioner = "";
                if (combineMode) {//如果是and，则所有条件要同时满足
                    jioner = "+";
                }
                boolean b = true;
                for (String s : contents) {
                    s = s.replaceAll("\\s+", " AND ");//防止条件中的空格被看成“或”，把其变成“与”
                    if (!b) {
                        sb.append(" ");
                    }
                    sb.append(jioner).append("(").append(s).append(")");
                    b = false;
                }
                Query q = qp.parse(sb.toString());
                log.info(q.toString());
                if (limit == -1) {
                    limit = is.maxDoc();
                }

                TopDocs hits = is.search(q, limit);
                ScoreDoc[] sds = hits.scoreDocs;
                for (int i = 0; i < sds.length; i++) {
                    ScoreDoc sd = sds[i];
                    Document doc = is.doc(sd.doc);
//                    System.out.println("Hit:(" + sd.score + ")" + doc.toString());
//本来想同时得到命中次数，也就是词频，但是网上找到的都是老版本的，这里不能用。
                    paths.add(doc.get(PATH));//返回匹配的路径
                }
            }
            is.close();
        } catch (ParseException ex) {
            log.error(ex.getMessage(), ex);
        } catch (IOException ex) {
            log.error(ex.getMessage(), ex);
        }
        return paths;
    }
}

附用到的工具类：

import java.io.File;
import java.io.FileFilter;
import java.util.Map;
import java.util.Set;

/**
 *
 * @author lan
 */
public final class FileListUtil {

//返回一定数量的符合要求的文件
    public static void list(File f, FileFilter filter, Set<File> set, int limit) {
        if (limit > -1 && set.size() >= limit) {
            return;
        }
        if (f == null) {
            return;
        }
        if (f.isFile()) {
            set.add(f);
        } else if (f.isDirectory()) {
            File[] files = null;
            if (filter == null) {
                files = f.listFiles();
            } else {
                files = f.listFiles(filter);
            }
            if (files != null) {
                for (File file : files) {
                    list(file, filter, set, limit);
                }
            }
        }
    }

//返回所有的符合要求的文件，不要担心set放不上，至少我的D盘资料盘都放进去都没有内存溢出
    public static void list(File f, FileFilter filter, Set<File> set) {
        if (f == null) {
            return;
        }
        if (f.isFile()) {
            set.add(f);
        } else if (f.isDirectory()) {
            File[] files = null;
            if (filter == null) {
                files = f.listFiles();
            } else {
                files = f.listFiles(filter);
            }
            if (files != null) {
                for (File file : files) {
                    list(file, filter, set);
                }
            }
        }
    }

//其实是打包工具类用到的
    public static void list(File f, FileFilter filter, String parent, Map<String, File> map) {
        if (f == null) {
            return;
        }
        String name = f.getName();
        if (parent != null) {
            name = parent + "/" + name;
        }
        if (f.isFile()) {
            map.put(name, f);
        } else if (f.isDirectory()) {
            File[] files = null;
            if (filter == null) {
                files = f.listFiles();
            } else {
                files = f.listFiles(filter);
            }
            if (files != null) {
                for (File file : files) {
                    list(file, filter, name, map);
                }
            }
        }
    }
}

常量类，大部分人用接口，但是我不太喜欢用接口来保存常量，虽然更方便点，但是不合规范。

public class Constants {//可以替换成枚举，没必要了

    protected static final String PATH = "path";
    protected static final String FILE = "file";
}

分享到：

给桌面程序及嵌入一个derby | 多线程下载

2009-11-12 17:54
浏览 2185
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 2.9的简单使用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 2.9的简单使用

评论

发表评论

相关推荐

公约数,公倍数和素数的简单计算

java简单打印

httpclient4的封装

h2的baseDir

eclipse下自动打包项目并部署到web项目的lib下

获取汉字的五笔,全拼和双拼的工具类

五笔86和汉字对照表

java System属性

log4j日志文件的相对路径

Apache codec中的base64

来,让我们一起画个印章吧

svg中的arc转化为java中的arc

swing的拖拽(dnd)的简单实现

自用的MD5计算工具

用jsoup分析下载巨鲸的mp3

获取子类的泛型参数

简单的通过注解运行的dao

java模拟js的escape和unescape函数

自己写的多线程对象池

apache poi读取excel中的颜色,真是坑爹啊

最近访客更多访客>>