- 浏览: 565271 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (478)
- lucene (45)
- oracle (19)
- nutch (2)
- blog (2)
- 垂直搜索 (19)
- java综合 (89)
- spring (15)
- Hibernate (9)
- Struts (9)
- Hadoop (16)
- Mysql (12)
- nosql (10)
- Linux (3)
- MyEclipse (4)
- Ant (1)
- 设计模式 (19)
- JBPM (1)
- JSP (1)
- HtmlParser (5)
- SVN (2)
- 插件 (2)
- 收藏 (7)
- Others (1)
- Heritrix (18)
- Solr (4)
- 主题爬虫 (31)
- 内存数据库 (24)
- 分布式与海量数据 (32)
- httpclient (14)
- Tomcat (1)
- 面试宝典 (6)
- Python (14)
- 数据挖掘 (1)
- 算法 (6)
- 其他 (4)
- JVM (12)
- Redis (18)
最新评论
-
hanjiyun:
本人水平还有待提高,进步空间很大,看这些文章给我有很大的指导作 ...
JVM的内存管理 Ⅲ -
liuxinglanyue:
四年后的自己:这种方法 不靠谱。 使用javaagent的方式 ...
计算Java对象占用内存空间的大小(对于32位虚拟机而言) -
jaysoncn:
附件在哪里啊test.NoCertificationHttps ...
使用HttpClient过程中常见的一些问题 -
231fuchenxi:
你好,有redis,memlink,mysql的测试代码吗?可 ...
MemLink 性能测试 -
guyue1015:
[color=orange][/color][size=lar ...
JAVA同步机制
现在如果一个txt文件中包含了ANSI编码的文本文件和Unicode编码的文本文件,如下图这种:
当用Lucene来建索引搜索时,这个文档中的内容是搜索不到的。
需要搜索的文本在附件中提供。
创建索引的源代码:
搜索的源代码:import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class IndexFiles {
// 主要代码 索引docDir文件夹下文档,索引文件在INDEX_DIR文件夹中
@SuppressWarnings("deprecation")
public static void main(String[] args) {
File indexDir = new File("e:\\Lucene\\index");
File docDir = new File("e:\\Lucene\\content");
try {
// 索引器
IndexWriter standardWriter = new IndexWriter(FSDirectory
.open(indexDir), new StandardAnalyzer(
Version.LUCENE_CURRENT), true,
IndexWriter.MaxFieldLength.LIMITED);
// 不建立复合式索引文件,默认的情况下是复合式的索引文件
standardWriter.setUseCompoundFile(false);
String[] files = docDir.list();
for (String fileStr : files) {
File file = new File(docDir, fileStr);
if (!file.isDirectory()) {
Document doc = new Document();
// 文件名称,可查询,不分词
String fileName = file.getName().substring(0,
file.getName().indexOf("."));
System.out.println("fileName:"+fileName);
doc.add(new Field("name", fileName, Field.Store.YES,
Field.Index.NOT_ANALYZED));
// 文件路径,可查询,不分词
String filePath = file.getPath();
doc.add(new Field("path", filePath, Field.Store.YES,
Field.Index.NOT_ANALYZED));
// 文件内容,需要检索
doc.add(new Field("content", new FileReader(file)));
standardWriter.addDocument(doc);
}
}
standardWriter.optimize();
// 关闭索引器
standardWriter.close();
} catch (IOException e) {
System.out.println(" caught a " + e.getClass()
+ "\n with message: " + e.getMessage());
}
}
}
import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.search.TopScoreDocCollector;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
/**
* 检索索引
*/
public class SearchFiles {
/** Simple command-line based search demo. */
@SuppressWarnings("deprecation")
public static void main(String[] args) throws Exception {
String index = "E:\\Lucene\\index";
String field = "content";
String queries = null;
boolean raw = false;
// 要显示条数
int hitsPerPage = 10;
// searching, so read-only=true
IndexReader reader = IndexReader.open(
FSDirectory.open(new File(index)), true); // only
Searcher searcher = new IndexSearcher(reader);
Analyzer standardAnalyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
BufferedReader in = new BufferedReader(new InputStreamReader(System.in));
QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, field,
standardAnalyzer);
while (true) {
if (queries == null) // prompt the user
System.out.println("Enter query: ");
String line = in.readLine();
if (line == null || line.length() == -1)
break;
line = line.trim();
if (line.length() == 0)
break;
Query query = parser.parse(line);
System.out.println("Searching for: " + query.toString(field));
doPagingSearch(in, searcher, query, hitsPerPage, raw,
queries == null);
}
reader.close();
}
public static void doPagingSearch(BufferedReader in, Searcher searcher,
Query query, int hitsPerPage, boolean raw, boolean interactive)
throws IOException {
TopScoreDocCollector collector = TopScoreDocCollector.create(
hitsPerPage, false);
searcher.search(query, collector);
ScoreDoc[] hits = collector.topDocs().scoreDocs;
int end, numTotalHits = collector.getTotalHits();
System.out.println(numTotalHits + " total matching documents");
int start = 0;
end = Math.min(hits.length, start + hitsPerPage);
for (int i = start; i < end; i++) {
Document doc = searcher.doc(hits[i].doc);
String path = doc.get("path");
if (path != null) {
System.out.println((i + 1) + ". " + path);
} else {
System.out
.println((i + 1) + ". " + "No path for this document");
}
}
}
}
发表评论
-
关于Lucene的讨论
2011-01-01 10:20 1065分类为[lucene]的文章 ... -
有关Lucene的问题(收藏)推荐
2010-12-30 21:02 1110有关Lucene的问题(1):为 ... -
Lucene 学习总结(收藏)推荐
2010-12-30 20:54 1563Lucene学习总结之一:全文检索的基本原理 ... -
基于Lucene的Compass 资源(收藏)
2010-12-29 18:29 11491.2、Compass相关网上资源 1、官方网站1: http ... -
Lucene 3.0.2索引文件官方文档(二)
2010-12-28 22:36 1010Deletable File A writer dy ... -
Lucene 3.0.2索引文件官方文档(一)
2010-12-28 22:34 1462Apache Lucene - Index File ... -
Lucene 3.0 索引文件学习总结(收藏)
2010-12-28 22:28 940lucene学习1——词域信息 ... -
Lucene 字符编码问题
2010-12-27 20:20 1036现在如果一个txt文件中包含了ANSI编码的文本文件和Unic ... -
Annotated Lucene(源码剖析中文版)
2010-12-25 22:52 1266Apache Lucene是一个高性能(high-pe ... -
Lucene 学习推荐博客
2010-12-25 22:42 1035深未来deepfuturelx http://deepfut ... -
Lucene3.0 初窥 总结(收藏)
2010-12-25 22:16 1818【Lucene3.0 初窥】全文检索的基本原理 ... -
转:基于lucene实现自己的推荐引擎
2010-12-17 17:05 1058采用基于数据挖掘的 ... -
加速 lucene 的搜索速度 ImproveSearchingSpeed(二)
2010-12-17 17:01 1033本文 为简单翻译,原文在:http://wiki.apac ... -
加速 lucene 索引建立速度 ImproveIndexingSpeed
2010-12-17 16:58 1074本文 只是简单的翻译,原文 在 http://wiki.a ... -
lucene 3.0 中的demo项目部署
2010-12-15 22:02 976转自:bjqincy 1 在myEclipise 建立 ... -
Lucene 3.0.2 源码 - final class Document
2010-12-14 22:33 894package org.apache.lucene.do ... -
Lucene 3.0.2 源码 - final class Field
2010-12-14 22:29 960package org.apache.lucene.do ... -
Lucene 3.0.2 源码 - abstract class AbstractField
2010-12-14 22:28 1042package org.apache.lucene.do ... -
Lucene 3.0.2 源码 - interface Fieldable
2010-12-14 22:28 1182package org.apache.lucene.do ... -
LinkedIn公司实现的实时搜索引擎Zoie
2010-12-14 21:02 879转自:forfuture1978 一 ...
相关推荐
- **Codecs模块**:提供了不同的编码方式,用于存储和检索索引,如`lucene-codecs-4.7.0.jar`。 - **Contrib模块**:包含社区贡献的扩展功能,可能包括特殊分词器、搜索建议等,如`lucene-join-4.7.0.jar`、`lucene...
在处理中文PDF时,确保选择的解析库能正确处理中文字符集,如UTF-8,以避免乱码问题。 接下来,构建索引是关键步骤。使用Lucene的`Analyzer`类,结合选定的中文分词器,我们可以对提取的PDF文本进行分析和分词。...
5. **增强的分析器**:Analyzer在3.0中有了更多可定制的选项,可以更好地处理各种语言和文本格式,支持更多的字符集和编码。 6. **更好的国际化支持**:Lucene 3.0增加了对多种语言的支持,包括中文,改进了对非...
3. **地理编码与解码**:使用GeoHash或其他算法将经纬度转换为字符串,便于存储和搜索。GeoHash是一种空间数据结构,能将地理坐标点映射成字符串,便于索引和比较。 4. **设置查询**:创建一个Query对象,可以根据...
接着,使用`getBytes("ISO8859_1")`进行字符编码转换,以防止因编码问题导致的乱码。然后,通过`IndexReader`和`IndexSearcher`打开索引文件,如果找不到索引文件,则提示错误信息。 `QueryParser`是Lucene中用于...
4. **索引过程**:包括分析(Analyzer)、字段分析(Tokenization)、词项分析(Term Analysis)和编码(Posting)。索引构建完成后,数据以二进制形式存储在磁盘上。 5. **查询解析**:Lucene支持多种查询语法,如...
《Lucene原理与代码分析》全面解析 Lucene是一个开源的全文搜索引擎库,由Apache...本文仅对Lucene做了基础介绍,实际应用中,开发者还需要根据具体需求对Lucene进行深度学习和实践,以充分利用其功能并解决实际问题。
`lucene-analyzers-phonetic-4.10.3.CHM`包含了语音编码分析器,用于实现模糊匹配和拼写纠错。例如,Soundex和Metaphone算法可以将相似发音的单词映射到相同的代码,提高搜索的包容性。 `lucene-analyzers-smartcn-...
在Lucene 4.4.0中,代码库包括了多种编码解码器,如Lucene40PostingsFormat、Lucene42PostingsFormat等,它们分别负责不同的索引数据结构的序列化和反序列化。这些编码解码器的设计允许开发者根据实际需求选择最优化...
2. **索引过程**:Lucene的索引过程包括分析、编码和存储。分析阶段,原始文本被分词并转化为索引的术语。编码是为了节省存储空间和提高搜索速度。存储则涉及如何在磁盘上组织这些数据。 3. **查询处理**:Lucene...
1. **字符编码处理**:中文字符通常使用Unicode编码,如UTF-8或GBK,处理中文文本时需要正确处理字符编码以避免乱码问题。 2. **分词算法**:IKAnalyzer采用了一些经典的分词算法,如HMM(Hidden Markov Model)隐...
3. **更多工具**:此外, contrib 还包含了一些其他工具,如信息抽取、地理编码、XML解析等,这些工具可以扩展Lucene的应用范围,使其能够处理更复杂的数据类型和应用场景。 总结来说,Lucene 3.6.1不仅强化了其...
4. 压缩存储:为了节省存储空间,Lucene会对索引进行压缩,如使用Delta编码、前缀编码等方法。 三、Lucene 3.0的搜索机制 1. 查询解析(Query Parsing):用户输入的查询字符串经过QueryParser解析,转化为Lucene...
Lucene提供了多种查询方式,包括程序编码法和字符串构造查询等,下面将详细介绍这些查询方法及其应用场景。 ##### 1. 程序编码法 程序编码法是指通过编写Java代码来构建查询表达式的方式。这种方式灵活性较高,适用...
1. **分词(Tokenization)**:Lucene使用Analyzer进行文本预处理,将输入的字符串分解成一系列独立的词汇单元(tokens)。Analyzer可以根据语言特性进行定制,例如,英文Analyzer会去除标点符号和停用词。 2. **词...
2. **地理编码与反编码**:如果需要处理地址字符串,可以集成第三方服务如Google Maps API进行地理编码和反编码。 3. **多维度检索**:除了地理位置外,还可以结合其他属性(如分类或名称)进行复合查询,提供更...
这段代码演示了如何使用默认的分词器(`Zend_Search_Lucene_Analysis_Analyzer_Common_Text`)对字符串进行分析,并打印出分词结果。 为了适应中文环境,我们可能需要创建自定义的分词算法。例如,我们可以扩展`...
Lucene的查询解析器如`QueryParser`将用户输入的查询字符串转换为`Query`对象。`Query`类及其子类(如`TermQuery`、`BooleanQuery`)定义了不同的查询模式。`Searcher`接口(主要由`IndexSearcher`实现)执行查询,...
FST是一种压缩的有向无环图(DAG)结构,每个节点代表一个前缀,边则表示字符的转移。这种结构允许快速地查找、比较和遍历词典中的词项。在FST中,每个节点可以关联一个值,这使得它不仅可以用于查找,还可以进行...