0 0

Lucene索引和检索中文文件的问题 15

lucene初学者,基础不好,碰到以下问题,恳请各位大侠指导,小女子感激不尽!

用的是IKAnalyzer2012_u6.jar和lucene-core-3.6.2.jar

是对本地的文件进行的索引和检索,做的web版的

1、能检索英文的,就是检索不了中文的

2、英文的检索出来的doc.get("contents")的值是空的,但是文件名和路径能读出来
(附件里有代码)
IndexUtil1.java

package com.lium.bean;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class IndexUtil1 {
	private Directory directory;
	private String indexPath = "F:/Lucene/test/indexDir1.2";
	private String dataPath = "F:/Lucene/test/dataDir1.2";
	public IndexUtil1() {
		try {
			directory = FSDirectory.open(new File(indexPath));
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	
	public String readFile(File f) {
		String s;
		StringBuffer text = new StringBuffer();
		try {
			BufferedReader br = new BufferedReader(new FileReader(f));
			while((s = br.readLine())!=null) {
				text.append(s);
			}	
			return text.toString();
		} catch (FileNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return null;		
	}
	
	public void Index() {
		IndexWriter writer = null;
		try {
			Analyzer analyzer = new IKAnalyzer();
			writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, analyzer));
			writer.deleteAll();
			Document doc = null;
			File file = new File(dataPath);
			for (File f : file.listFiles()) {
				String text = readFile(f);
				doc = new Document();
				doc.add(new Field("contents",text, Field.Store.YES,Field.Index.ANALYZED));
				/*System.out.println(text);*/ /*text值没有问题,可以读出来*/
				doc.add(new Field("filename", f.getName(), Field.Store.YES,Field.Index.NOT_ANALYZED));
				doc.add(new Field("filepath", f.getCanonicalPath(),Field.Store.YES,Field.Index.NOT_ANALYZED));
				writer.addDocument(doc);	 
			}
		} catch (CorruptIndexException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (LockObtainFailedException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} finally {
			if(writer != null) {
				try {
					writer.close();
				} catch (CorruptIndexException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
		}
	}
	
}


SearcherUtil.java
package com.lium.bean;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

public class SearcherUtil {
	private Directory directory;
	private IndexReader reader;
	public SearcherUtil() {
		try {
			directory = FSDirectory.open(new File("F:/Lucene/indexDir"));
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	
	public IndexSearcher getsearcher() {
		try {
			if(reader == null) {		
				reader = IndexReader.open(directory);
			}else {
				IndexReader dr = IndexReader.openIfChanged(reader);
				if(dr != null) {
					reader = dr;
				}
			}
			return new IndexSearcher(reader);
		} /*catch (CorruptIndexException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}*/ catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return null;
	}
	
	public List<Results> seach(String keys) {
		try {
			IndexSearcher searcher = getsearcher();
			Query query = new TermQuery(new Term("contents", keys));
			TopDocs tds = searcher.search(query, 10);
			List<Results> rsList = new ArrayList<Results>();
			for(ScoreDoc sd:tds.scoreDocs) {
				Document doc = searcher.doc(sd.doc);
				/*System.out.println(doc.get("contents"));*/  /*这里打印出来值是空的*/
				
				Results rs = new Results(doc.get("filename"), doc.get("filepath"), doc.get("contents"));
				rsList.add(rs);
			}
			return rsList;
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return null;
	}
}

Results.java
package com.lium.bean;

public class Results {

	String filename;
	String filepath;
	String content;
	
	public Results(String filename, String filepath, String content) {
		super();
		this.filename = filename;
		this.filepath = filepath;
		this.content = content;
	}
	
	public String getFilename() {
		return filename;
	}
	
	public void setFilename(String filename) {
		this.filename = filename;
	}
	
	public String getFilepath() {
		return filepath;
	}
	
	public void setFilepath(String filepath) {
		this.filepath = filepath;
	}
	
	public String getContent() {
		return content;
	}
	
	public void setContent(String content) {
		this.content = content;
	}
	
}


ISservlet.java
package com.lium.servlet;

import java.io.IOException;
import java.util.List;

import javax.servlet.ServletException;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;

import com.lium.bean.IndexUtil1;
import com.lium.bean.Results;
import com.lium.bean.SearcherUtil;

public class ISservlet extends HttpServlet {
	private static final long serialVersionUID = 1L;

	/**
	 * @see HttpServlet#doGet(HttpServletRequest request, HttpServletResponse response)
	 */
	protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
		this.doPost(request, response);
	}

	/**
	 * @see HttpServlet#doPost(HttpServletRequest request, HttpServletResponse response)
	 */
	protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
		//System.out.println(request.getCharacterEncoding());
		request.setCharacterEncoding("UTF-8");
		String keys = request.getParameter("keywords");
		IndexUtil1 iu = new IndexUtil1();
		iu.Index();
		SearcherUtil su = new SearcherUtil();	
		List<Results> rsList = su.seach(keys);
		if(rsList.size() > 0) {
			request.setAttribute("rsList", rsList);
			request.getRequestDispatcher("/SeacherResult.jsp").forward(request, response);
		} else {
			request.getRequestDispatcher("/fail.jsp").forward(request, response);
		}
	}

}


Seacher.html
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<link href="bootstrap/css/bootstrap.min.css" type="text/css" rel="stylesheet"/>
<title>用户搜索界面</title>
</head>
<body>
<div class="container-fluid">
	<div class="row-fluid">
		<div class="span2">
    			<!--Sidebar content-->
    	</div>
    	<div class="span10">
    		<h2>A Simple Searcher</h2>
			<form class="form-search" action="web/ISservlet" method="post">
				<input type="text" class="input-medium search-query" name="keywords">
				<button type="submit" class="btn">搜索</button>
			</form>
		</div>
	</div>
</div>
</body>
</html>


SeacherResult.jsp
<%@page import="java.util.List"%>
<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<%@page import="com.lium.bean.*" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>搜索结果</title>
</head>
<body>
<%
	List<Results> list=(List<Results>)request.getAttribute("rsList");
	for(int i=0;i<list.size();i++) {
		Results rs = list.get(i);
%>
		文件名:<%=rs.getFilename()%><br>
		文件内容:<%=rs.getContent()%><br>
		文件路径:<%=rs.getFilepath()%><br>
		
<%
	}
%>	
</body>
</html>



2013年4月16日 21:58

3个答案 按时间排序 按投票排序

0 0

采纳的答案

SearcherUtil 的索引目录错了
directory = FSDirectory.open(new File("F:/Lucene/test/indexDir1.2"));


2013年4月16日 22:38
0 0

readfile方法添加编码方式试试:

FileInputStream fis=new FileInputStream(f);//   按照 UTF-8 编码方式将字节流转化为字符流InputStreamReader isr=new InputStreamReader(fis,"UNICODE");//   从字符流中获取文本并进行缓冲BufferedReader br=new BufferedReader(isr);

2013年4月16日 22:30
0 0

readFile方法修改为:

FileInputStream fis=new FileInputStream(f);//   按照 UTF-8 编码方式将字节流转化为字符流InputStreamReader isr=new InputStreamReader(fis,"UNICODE");//   从字符流中获取文本并进行缓冲BufferedReader br=new BufferedReader(isr);
试试

2013年4月16日 22:28

相关推荐

    lucene全文检索简单索引和搜索实例

    二、Lucene索引创建流程 1. 初始化:首先,我们需要导入Lucene库,并创建一个标准的Analyzer,例如StandardAnalyzer,它对输入的文本进行标准化处理。 2. 创建索引目录:索引数据会存储在一个Directory对象中,...

    Lucene读取索引文件

    一个Lucene索引是由多个文件组成的,包括但不限于 segments文件、.del文件(删除文档标记)、.tii和.tis文件(Term Info Index和Term Info postings)、.frx、.fdx、.fdt、.fdt(Field Data)等。这些文件共同构成了...

    Lucene 索引的简单使用

    以上就是关于“Lucene索引的简单使用”的详细介绍,包括其核心概念、创建和查询索引的步骤以及一些高级特性。希望对你理解和应用Lucene有所帮助。在实际开发中,可以根据需求选择合适的Analyzer,优化索引策略,以...

    lucene索引查看工具及源码

    在使用 Lucene 进行信息检索时,有时我们需要对建立的索引进行查看、调试或分析,这时就需要借助 Lucene 的索引查看工具。 Luke 是一个非常实用的 Lucene 索引浏览器,全称为 Lucidworks Luke。它允许用户以图形化...

    Lucene索引文件查看工具lukeall4.7.1

    它是一款专门针对Lucene 4.7版本设计的索引文件查看和分析工具,帮助我们直观地洞察Lucene索引的内部结构。 LukeAll 4.7.1的核心功能主要集中在以下几个方面: 1. **索引目录选择**:用户可以直接通过双击运行...

    lucene索引文件格式介绍

    了解这些文件格式后,我们还要知道Lucene索引中使用的基本数据类型,如Byte、UInt32、UInt64和VInt。VInt是一种变长整数类型,它根据数值大小动态占用字节,有效地节省了存储空间。 总的来说,Lucene的索引文件格式...

    Lucene索引和查询

    **Lucene索引和查询** Lucene是Apache软件基金会的开放源码全文搜索引擎库,它提供了文本检索的核心工具,使得开发者能够快速构建自己的搜索应用。本项目中的代码旨在展示如何利用Lucene对多个文件夹下的数据进行...

    luke源码--查看lucene索引文件

    《深入理解Luke:洞察Lucene索引...通过分析Luke的源码,我们可以学习到如何操作和调试Lucene索引,这对于优化搜索算法、提高检索效率具有重大意义。同时,这也为自定义Lucene插件或者开发类似工具提供了基础和灵感。

    lucene 索引 查看 工具

    Lucene 是一个开源的全文检索库,由 Apache 软件基金会开发,它为 Java 开发人员提供了强大的文本搜索功能。在 Lucene 的使用过程中,创建索引是关键步骤,而有时我们需要查看这些索引来了解其结构、内容以及优化...

    lucene索引查看程序及代码

    luke是一款开源的Lucene索引查看器,它允许用户以图形化界面的形式查看和操作Lucene索引。lukeall-0.8.1.jar是luke的运行文件,通过运行这个JAR文件,我们可以直接在Java环境中启动luke应用,进行索引的查看和分析。...

    Lucene索引器实例

    以下是一个简单的Java代码示例,展示了如何创建和使用Lucene索引器: ```java import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache....

    基于lucene的全文检索系统

    在我们的项目中,Struts2被用来处理用户请求,管理页面流程,以及与后台Lucene索引的交互。 **文件上传与下载** 在系统中,用户可以上传文件,这些文件随后会被索引以便进行全文检索。文件上传通常涉及HTTP协议,...

    Lucene4 全文检索

    作为一个高级的搜索引擎工具包,Lucene4 提供了完整的索引和搜索机制,使得在文件和数据库中进行全文检索变得简单高效。在本文中,我们将深入探讨 Lucene4 的核心概念、工作流程以及如何在实际项目中应用。 ### 1. ...

    Lucene检索数据库支持中文检索

    ### Lucene检索数据库支持中文检索 #### 一、Lucene简介与原理 ##### 1. Lucene概述 Lucene是一款高性能、全功能的文本搜索引擎库,由Java编写而成。其核心功能是为开发者提供构建搜索应用程序的基础框架。Lucene...

    Lucene文件检索实战项目

    apache软件基金会的网站使用了Lucene作为全文检索的引擎,IBM的开源软件eclipse[9]的2.1版本中也采用了Lucene作为帮助子系统的全文索引引擎,相应的IBM的商业软件Web Sphere[10]中也采用了Lucene。Lucene以其开放源...

    lucene 3.6 检索文件 pdf word ppt excel txt html xml

    要开始使用Lucene进行文件检索,你需要指定两个关键目录:检索目录和索引目录。检索目录包含了需要被搜索的文件,而索引目录则用于存储生成的索引文件。通过调用提供的静态方法,可以快速完成索引的创建。这个过程...

    lucene索引查看工具luck7.4.0

    `Luck`,全称`Luke`,是一款强大的Lucene索引浏览器和分析器工具,可以帮助开发者、数据分析师以及对Lucene感兴趣的人员查看、理解和调试Lucene索引。 `Luke 7.4.0`是这款工具的一个特定版本,它专门设计用来与...

    深入 Lucene 索引机制

    以下是对Lucene索引机制的详细解析: 一、Lucene的索引过程 1. 文档分析:当向Lucene添加文档时,首先会经过一个分词器(Tokenizer),将文本拆分成一系列的词项(Token)。接着,这些词项会被过滤(Filter)和...

    Lucene索引文件格式

    《Lucene索引文件格式详解》 Lucene,作为一款强大的全文搜索引擎库,其索引文件格式是实现高效搜索的关键。本文将深入解析Lucene 1.3版本的索引文件结构,帮助读者理解其内部运作机制。 首先,我们要理解Lucene...

    基于Lucene的全文检索引擎研究与应用.pdf

    Lucene使用的索引文件格式是自定义的二进制格式,该格式以8位字节为基础,确保了索引文件在不同平台上的一致性和互操作性。索引文件主要包含两大部分:一是词典(Term Dictionary),记录了文档中的所有词条及其统计...

Global site tag (gtag.js) - Google Analytics