- 浏览: 57419 次
- 来自: 北京
最新评论
-
泛泛evil:
总结的很好,谢谢分享
JavaScript -
wanxkl:
哇!总结的太好了。。凤哥哥,你好强大啊。。请问您跟凤姐什么关系 ...
css应用
package com.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.commons.io.FileUtils;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;
public class LuceneTxt{
@Test
public void testWriter() throws Exception{
// 获取工程路径
String projectPath = System.getProperty("user.dir");
// 获取文件资源路径
File dataDir = new File(projectPath, "txt");
if (!dataDir.exists() || !dataDir.isDirectory()) {
return;
}
// 确定数据源
File[] dataFiles = dataDir.listFiles();
if (dataFiles.length < 1) {
return;
}
// crate indexWriter
IndexWriter indexWriter = null;
try {
// get index dirPath
File indexDir = new File(projectPath, "index");
if (!indexDir.exists()) {
indexDir.mkdir();
}
// Directory directory = new RAMDirectory();
Directory directory = FSDirectory.open(indexDir);
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
indexWriter = new IndexWriter(directory, analyzer, true,
IndexWriter.MaxFieldLength.LIMITED);
//create document add to IndexWriter
for(File dataFile:dataFiles){
Document document = new Document();
//create Field add to Document
document.add(new Field("fileContent",FileUtils.readFileToString(dataFile, "gbk"),Field.Store.YES,Field.Index.ANALYZED));
indexWriter.addDocument(document);
}
indexWriter.optimize();
} catch (Exception e) {
e.printStackTrace();
} finally {
if (indexWriter!=null) {
indexWriter.close();
}
}
}
private void testSearch() {
// create indexSearch
}
}
发表评论
-
lucene3.0
2012-09-11 20:15 870全文搜索 核心:创建索引——查询索引--分词器 索引引擎: ... -
庖丁解牛配置【转载】
2012-06-19 17:29 0最近做有关搜索引擎的项目,使用中文分词工具“庖丁解牛”。 ... -
分布式存储(转载)
2012-06-05 15:42 1204L1、HTML静态化其实大家都知道,效率最高、消耗最小的 ... -
java设计原则
2012-04-05 16:50 825原则1:DRY(Don't repeat ... -
java静态、动态代理
2012-04-04 18:51 849JAVA的动态代理 代理模式 代理模式是常用的java设计模式 ... -
Hibernate声明事务
2011-09-17 16:25 897事务处理 第一种方式: 首先配置datasoure: ... -
javascript应用3
2011-09-10 15:14 953打开一个新页面:{ <script t ... -
javascript应用2
2011-09-10 15:09 897日期插件的应用:{ <script type=& ... -
javascript应用1
2011-09-10 15:00 972javascript {<!-- 1.j ... -
css应用
2011-09-10 14:59 897CSS 本章目标 1、CSS的定义、优势 2、css的基 ... -
Html
2011-09-10 14:56 923HTML 超链接:{ <a href=”http:/ ... -
jsp、el、jstl.doc
2011-09-10 14:53 1325serlvet和jsp区别和联系 jsp从本质上讲也是s ... -
Jdbc
2011-09-10 14:49 925jdbc操作数据库插入、更新、删除、查找 mysql数据 ... -
文件上传步骤
2011-09-10 14:47 760文件上传的简单方法:(原理性的实验) 1. <b ... -
中文乱码问题解决
2011-09-10 14:43 7521. post方式提交的数据 采用request.setCha ... -
事务传播特性与隔离级别
2011-09-10 14:38 797事务传播特性了解事务的几种传播特性 ... -
监听器
2011-09-10 14:36 893监听器概述 1.Listener是Servlet的监听器 ... -
过滤器
2011-09-10 14:35 12461. Servlet过滤器基础 Servlet过滤器是Se ... -
web编程常用配置2
2011-09-10 14:35 712c3p0.jar:C3PO是一个数据库连接池,Hibern ... -
web编程常用配置1
2011-09-10 14:33 983mysql数据库jdbc驱动 jdbcDriver = co ...
相关推荐
lucene3.0 lucene3.0 lucene3.0 lucene3.0 lucene3.0
lucene 3.0 API中文帮助,学习的人懂得的
在Lucene3.0中,查询处理是一个关键环节,涉及多种查询方式和理论模型。以下是对这些概念的详细解释: 1. **查询方式**: - **顺序查询**:是最简单的查询方式,直接遍历索引,效率较低。 - **索引查询**:基于预...
《Lucene 3.0 原理与代码分析完整版》是一本深入解析Lucene 3.0搜索引擎库的专业书籍。Lucene是Apache软件基金会的开源项目,它为Java开发者提供了一个高性能、全文检索的工具包,广泛应用于各种信息检索系统。这...
lucene3.0 中文分词器, 庖丁解牛
这里的"lucene3.0核心jar包"是 Lucene 的一个重要版本,发布于2009年,为当时的开发人员提供了构建全文搜索引擎的基础框架。 在 Lucene 3.0 中,以下几个关键知识点值得关注: 1. **索引结构**:Lucene 使用倒排...
**一、Lucene 3.0 的核心概念** 1. **索引**:Lucene首先将文档内容转换成倒排索引(Inverted Index),这是一个数据结构,用于快速定位包含特定单词的文档。通过索引,Lucene能够高效地执行全文搜索。 2. **分词*...
这里我们主要聚焦于`lucene3.0`版本,该版本在当时是Lucene的一个重要里程碑,引入了许多改进和新特性。 1. **索引构建**: 在Lucene3.0中,索引是数据检索的基础。它通过将文本数据转换为倒排索引来实现快速查询...
在这个实例中,我们将探讨如何在 JDK 1.5 和 Lucene 3.0 的环境下构建和运行一个简单的搜索引擎。 首先,Lucene 的核心概念包括文档(Document)、字段(Field)、索引(Index)和搜索(Search)。文档是存储信息的...
在这个例子中,我们创建了一个索引,包含一个文档,然后搜索包含"Lucene 3.0"的文档。这个简单的示例展示了Lucene的基本用法,实际应用中可以根据需要扩展,例如添加更多的文档字段、实现更复杂的查询逻辑,或者使用...
1. 文档索引:Lucene通过分词器(Tokenizer)将输入的文本分解成一系列的词语(Term),并为每个词语创建一个文档频率(Document Frequency, DF)。同时,使用Term频率-逆文档频率(Term Frequency-Inverse Document...
lucene3.0-highlighter.jar lucene3.0的高亮jar包,从lucene3.0源码中导出来的
本文将重点介绍如何使用 Lucene 3.0 实现全文检索的基本步骤,以及与前一版本 Lucene 2.0 的主要区别。 **1. 安装与环境配置** 首先,你需要下载 Lucene 3.0 的发行版,并将其添加到你的项目类路径中。确保你的开发...
lucene升级了,分词也得升级哦! 在使用lucene3与paoding集成的时候可能会出现以下错误: Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z ...
Lucene3.0分词系统的核心在于理解和应用其分词原理,无论是对于英文还是中文文本,这一过程都是构建高效搜索引擎的基础。以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理 英文分词相较...
**Lucene 3.0 入门实例** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发。它提供了完整的搜索功能,包括索引、查询解析、排序以及高级的文本分析能力。在 Lucene 3.0 版本中,开发者可以利用其强大...
1. **SegmentMerger 改进**: Lucene 3.0 中,`MergePolicy` 和 `MergeScheduler` 分离,提供更灵活的索引合并策略。 2. **N-gram 查询支持**: 新增了对 N-gram 查询的支持,增强了短语查询和部分匹配的能力。 3. *...