-
Lucene索引和检索中文文件的问题 15
lucene初学者,基础不好,碰到以下问题,恳请各位大侠指导,小女子感激不尽!
用的是IKAnalyzer2012_u6.jar和lucene-core-3.6.2.jar
是对本地的文件进行的索引和检索,做的web版的
1、能检索英文的,就是检索不了中文的
2、英文的检索出来的doc.get("contents")的值是空的,但是文件名和路径能读出来
(附件里有代码)
IndexUtil1.java
package com.lium.bean; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.CorruptIndexException; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.store.LockObtainFailedException; import org.apache.lucene.util.Version; import org.wltea.analyzer.lucene.IKAnalyzer; public class IndexUtil1 { private Directory directory; private String indexPath = "F:/Lucene/test/indexDir1.2"; private String dataPath = "F:/Lucene/test/dataDir1.2"; public IndexUtil1() { try { directory = FSDirectory.open(new File(indexPath)); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } public String readFile(File f) { String s; StringBuffer text = new StringBuffer(); try { BufferedReader br = new BufferedReader(new FileReader(f)); while((s = br.readLine())!=null) { text.append(s); } return text.toString(); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } return null; } public void Index() { IndexWriter writer = null; try { Analyzer analyzer = new IKAnalyzer(); writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, analyzer)); writer.deleteAll(); Document doc = null; File file = new File(dataPath); for (File f : file.listFiles()) { String text = readFile(f); doc = new Document(); doc.add(new Field("contents",text, Field.Store.YES,Field.Index.ANALYZED)); /*System.out.println(text);*/ /*text值没有问题,可以读出来*/ doc.add(new Field("filename", f.getName(), Field.Store.YES,Field.Index.NOT_ANALYZED)); doc.add(new Field("filepath", f.getCanonicalPath(),Field.Store.YES,Field.Index.NOT_ANALYZED)); writer.addDocument(doc); } } catch (CorruptIndexException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (LockObtainFailedException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } finally { if(writer != null) { try { writer.close(); } catch (CorruptIndexException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } }
SearcherUtil.javapackage com.lium.bean; import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.lucene.document.Document; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.Term; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TermQuery; import org.apache.lucene.search.TopDocs; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; public class SearcherUtil { private Directory directory; private IndexReader reader; public SearcherUtil() { try { directory = FSDirectory.open(new File("F:/Lucene/indexDir")); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } public IndexSearcher getsearcher() { try { if(reader == null) { reader = IndexReader.open(directory); }else { IndexReader dr = IndexReader.openIfChanged(reader); if(dr != null) { reader = dr; } } return new IndexSearcher(reader); } /*catch (CorruptIndexException e) { // TODO Auto-generated catch block e.printStackTrace(); }*/ catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } return null; } public List<Results> seach(String keys) { try { IndexSearcher searcher = getsearcher(); Query query = new TermQuery(new Term("contents", keys)); TopDocs tds = searcher.search(query, 10); List<Results> rsList = new ArrayList<Results>(); for(ScoreDoc sd:tds.scoreDocs) { Document doc = searcher.doc(sd.doc); /*System.out.println(doc.get("contents"));*/ /*这里打印出来值是空的*/ Results rs = new Results(doc.get("filename"), doc.get("filepath"), doc.get("contents")); rsList.add(rs); } return rsList; } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } return null; } }
Results.javapackage com.lium.bean; public class Results { String filename; String filepath; String content; public Results(String filename, String filepath, String content) { super(); this.filename = filename; this.filepath = filepath; this.content = content; } public String getFilename() { return filename; } public void setFilename(String filename) { this.filename = filename; } public String getFilepath() { return filepath; } public void setFilepath(String filepath) { this.filepath = filepath; } public String getContent() { return content; } public void setContent(String content) { this.content = content; } }
ISservlet.javapackage com.lium.servlet; import java.io.IOException; import java.util.List; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import com.lium.bean.IndexUtil1; import com.lium.bean.Results; import com.lium.bean.SearcherUtil; public class ISservlet extends HttpServlet { private static final long serialVersionUID = 1L; /** * @see HttpServlet#doGet(HttpServletRequest request, HttpServletResponse response) */ protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { this.doPost(request, response); } /** * @see HttpServlet#doPost(HttpServletRequest request, HttpServletResponse response) */ protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { //System.out.println(request.getCharacterEncoding()); request.setCharacterEncoding("UTF-8"); String keys = request.getParameter("keywords"); IndexUtil1 iu = new IndexUtil1(); iu.Index(); SearcherUtil su = new SearcherUtil(); List<Results> rsList = su.seach(keys); if(rsList.size() > 0) { request.setAttribute("rsList", rsList); request.getRequestDispatcher("/SeacherResult.jsp").forward(request, response); } else { request.getRequestDispatcher("/fail.jsp").forward(request, response); } } }
Seacher.html<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <link href="bootstrap/css/bootstrap.min.css" type="text/css" rel="stylesheet"/> <title>用户搜索界面</title> </head> <body> <div class="container-fluid"> <div class="row-fluid"> <div class="span2"> <!--Sidebar content--> </div> <div class="span10"> <h2>A Simple Searcher</h2> <form class="form-search" action="web/ISservlet" method="post"> <input type="text" class="input-medium search-query" name="keywords"> <button type="submit" class="btn">搜索</button> </form> </div> </div> </div> </body> </html>
SeacherResult.jsp<%@page import="java.util.List"%> <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <%@page import="com.lium.bean.*" %> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>搜索结果</title> </head> <body> <% List<Results> list=(List<Results>)request.getAttribute("rsList"); for(int i=0;i<list.size();i++) { Results rs = list.get(i); %> 文件名:<%=rs.getFilename()%><br> 文件内容:<%=rs.getContent()%><br> 文件路径:<%=rs.getFilepath()%><br> <% } %> </body> </html>
2013年4月16日 21:58
3个答案 按时间排序 按投票排序
-
采纳的答案
SearcherUtil 的索引目录错了
directory = FSDirectory.open(new File("F:/Lucene/test/indexDir1.2"));
2013年4月16日 22:38
-
readfile方法添加编码方式试试:
FileInputStream fis=new FileInputStream(f);// 按照 UTF-8 编码方式将字节流转化为字符流InputStreamReader isr=new InputStreamReader(fis,"UNICODE");// 从字符流中获取文本并进行缓冲BufferedReader br=new BufferedReader(isr);
2013年4月16日 22:30
-
readFile方法修改为:
FileInputStream fis=new FileInputStream(f);// 按照 UTF-8 编码方式将字节流转化为字符流InputStreamReader isr=new InputStreamReader(fis,"UNICODE");// 从字符流中获取文本并进行缓冲BufferedReader br=new BufferedReader(isr);
试试2013年4月16日 22:28
相关推荐
二、Lucene索引创建流程 1. 初始化:首先,我们需要导入Lucene库,并创建一个标准的Analyzer,例如StandardAnalyzer,它对输入的文本进行标准化处理。 2. 创建索引目录:索引数据会存储在一个Directory对象中,...
一个Lucene索引是由多个文件组成的,包括但不限于 segments文件、.del文件(删除文档标记)、.tii和.tis文件(Term Info Index和Term Info postings)、.frx、.fdx、.fdt、.fdt(Field Data)等。这些文件共同构成了...
以上就是关于“Lucene索引的简单使用”的详细介绍,包括其核心概念、创建和查询索引的步骤以及一些高级特性。希望对你理解和应用Lucene有所帮助。在实际开发中,可以根据需求选择合适的Analyzer,优化索引策略,以...
在使用 Lucene 进行信息检索时,有时我们需要对建立的索引进行查看、调试或分析,这时就需要借助 Lucene 的索引查看工具。 Luke 是一个非常实用的 Lucene 索引浏览器,全称为 Lucidworks Luke。它允许用户以图形化...
它是一款专门针对Lucene 4.7版本设计的索引文件查看和分析工具,帮助我们直观地洞察Lucene索引的内部结构。 LukeAll 4.7.1的核心功能主要集中在以下几个方面: 1. **索引目录选择**:用户可以直接通过双击运行...
了解这些文件格式后,我们还要知道Lucene索引中使用的基本数据类型,如Byte、UInt32、UInt64和VInt。VInt是一种变长整数类型,它根据数值大小动态占用字节,有效地节省了存储空间。 总的来说,Lucene的索引文件格式...
**Lucene索引和查询** Lucene是Apache软件基金会的开放源码全文搜索引擎库,它提供了文本检索的核心工具,使得开发者能够快速构建自己的搜索应用。本项目中的代码旨在展示如何利用Lucene对多个文件夹下的数据进行...
《深入理解Luke:洞察Lucene索引...通过分析Luke的源码,我们可以学习到如何操作和调试Lucene索引,这对于优化搜索算法、提高检索效率具有重大意义。同时,这也为自定义Lucene插件或者开发类似工具提供了基础和灵感。
Lucene 是一个开源的全文检索库,由 Apache 软件基金会开发,它为 Java 开发人员提供了强大的文本搜索功能。在 Lucene 的使用过程中,创建索引是关键步骤,而有时我们需要查看这些索引来了解其结构、内容以及优化...
luke是一款开源的Lucene索引查看器,它允许用户以图形化界面的形式查看和操作Lucene索引。lukeall-0.8.1.jar是luke的运行文件,通过运行这个JAR文件,我们可以直接在Java环境中启动luke应用,进行索引的查看和分析。...
以下是一个简单的Java代码示例,展示了如何创建和使用Lucene索引器: ```java import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache....
在我们的项目中,Struts2被用来处理用户请求,管理页面流程,以及与后台Lucene索引的交互。 **文件上传与下载** 在系统中,用户可以上传文件,这些文件随后会被索引以便进行全文检索。文件上传通常涉及HTTP协议,...
作为一个高级的搜索引擎工具包,Lucene4 提供了完整的索引和搜索机制,使得在文件和数据库中进行全文检索变得简单高效。在本文中,我们将深入探讨 Lucene4 的核心概念、工作流程以及如何在实际项目中应用。 ### 1. ...
### Lucene检索数据库支持中文检索 #### 一、Lucene简介与原理 ##### 1. Lucene概述 Lucene是一款高性能、全功能的文本搜索引擎库,由Java编写而成。其核心功能是为开发者提供构建搜索应用程序的基础框架。Lucene...
apache软件基金会的网站使用了Lucene作为全文检索的引擎,IBM的开源软件eclipse[9]的2.1版本中也采用了Lucene作为帮助子系统的全文索引引擎,相应的IBM的商业软件Web Sphere[10]中也采用了Lucene。Lucene以其开放源...
要开始使用Lucene进行文件检索,你需要指定两个关键目录:检索目录和索引目录。检索目录包含了需要被搜索的文件,而索引目录则用于存储生成的索引文件。通过调用提供的静态方法,可以快速完成索引的创建。这个过程...
`Luck`,全称`Luke`,是一款强大的Lucene索引浏览器和分析器工具,可以帮助开发者、数据分析师以及对Lucene感兴趣的人员查看、理解和调试Lucene索引。 `Luke 7.4.0`是这款工具的一个特定版本,它专门设计用来与...
以下是对Lucene索引机制的详细解析: 一、Lucene的索引过程 1. 文档分析:当向Lucene添加文档时,首先会经过一个分词器(Tokenizer),将文本拆分成一系列的词项(Token)。接着,这些词项会被过滤(Filter)和...
《Lucene索引文件格式详解》 Lucene,作为一款强大的全文搜索引擎库,其索引文件格式是实现高效搜索的关键。本文将深入解析Lucene 1.3版本的索引文件结构,帮助读者理解其内部运作机制。 首先,我们要理解Lucene...
Lucene使用的索引文件格式是自定义的二进制格式,该格式以8位字节为基础,确保了索引文件在不同平台上的一致性和互操作性。索引文件主要包含两大部分:一是词典(Term Dictionary),记录了文档中的所有词条及其统计...