1。今天研究了一下lucene,对于初学者来说,有一个地方以前还没怎么弄懂,可能不是很用心吧。今天又写点小的作业,用lucene来实现,对于以前遇到的这点问题进行了总结。
Lucene提供四个不同的字段类型,你可以从中做出选择:
Lucene提供四个不同的字段类型,你可以从中做出选择:
n Keyword—不被分析,但是被索引并逐字存储到索引中。这个类型适合于原始值需要保持原样的字段,如URL、文件系统路径、日期、个人名称、社会安全号码、电话号码等等。例如,我们在Indexer(列表1.1)中把文件系统路径作为Keyword字段。
n UnIndexed—不被分析也不被索引,但是它的值存储到索引中。这个类型适合于你需要和搜索结果一起显示的字段(如URL或数据库主键),但是你从不直接搜索它的值。因为这种类型字段的原始值存储在索引中,这种类型不适合于存放比较巨大的值,如果索引大小是个问题的话。
n UnStored—和UnIndexed相反。这个字段类型被分析并索引但是不存储在索引中。它适合于索引大量的文本而不需要以原始形式重新获得它。例如网页的主体或任休其它类型的文本文档。
n Text—被分析并索引。这就意味着这种类型的字段可以被搜索,但是要小心字段大小。如果要索引的数据是一个String,它也被存储;但如果数据(如我们的Indexer例子)是来自一个Reader,它就不会被存储。这通常是混乱的来源,所以在使用Field.Text时要注意这个区别。
上面是lucene in Action中写道的,但是以前不是理解的很到位,今天弄明白了些。
1。对于keyword--我们在程序当中可以通过keyword进行查找,并可以通过get(“keyword”)来获取keyword的值
举例:
如
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Keyword("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
打印的结果为:1234567
就是
2。对于Unindexed,我们不能通过这个字段来索引,如果你这样做,那么肯定差不到任何值,但是通过其它的如keyword索引后,如Unindexed的字段设为city。你通过keyword查询后,可以通过调用get("city")的值来获取unIndexed的值。
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Unndexed("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
打印的结果为:null
3. Unstore 这个字段支持索引,但是不保存原始的信息。通过调用get方法获得不了这个字段的值。
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Keyword("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
打印的结果为:null
这个字段支持索引,我们可以通过这个字段进行索引,然后调用其他字段的值,但是不能通过其他字段索引调用这个字段的 get方法,那么还是不能够得到所塑要的值。
4. text
分两种情况
第一,以String为参数:
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Text("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
输出结果为1234567
这是以字符串卫参数,那么既可以支持索引又可以调用这个字段保存的原始信息。
第二种情况
以文件流为参数
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Text("telephone",new FileReader("hello.txt")))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
假设未见hello.txt中存在1234567这个字符串。
输出结果为null
这个是以文件流为参数,他不保存原始的文件信息,但是支持索引。所以这个方法和unstore用起来是一样的。
上面是lucene in Action中写道的,但是以前不是理解的很到位,今天弄明白了些。
1。对于keyword--我们在程序当中可以通过keyword进行查找,并可以通过get(“keyword”)来获取keyword的值
举例:
如
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Keyword("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
打印的结果为:1234567
就是
2。对于Unindexed,我们不能通过这个字段来索引,如果你这样做,那么肯定差不到任何值,但是通过其它的如keyword索引后,如Unindexed的字段设为city。你通过keyword查询后,可以通过调用get("city")的值来获取unIndexed的值。
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Unndexed("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
打印的结果为:null
3. Unstore 这个字段支持索引,但是不保存原始的信息。通过调用get方法获得不了这个字段的值。
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Keyword("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
打印的结果为:null
这个字段支持索引,我们可以通过这个字段进行索引,然后调用其他字段的值,但是不能通过其他字段索引调用这个字段的 get方法,那么还是不能够得到所塑要的值。
4. text
分两种情况
第一,以String为参数:
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Text("telephone","1234567"))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
输出结果为1234567
这是以字符串卫参数,那么既可以支持索引又可以调用这个字段保存的原始信息。
第二种情况
以文件流为参数
IndexWriter writer = new IndexWriter(dir, getAnalyzer(), false);
string keyword="1234567".
Document doc= new Document();
doc.add(Field.Text("telephone",new FileReader("hello.txt")))
doc.close();
writer.addDocument(doc);
Query query = QueryParser.parse(str, "telephone", new StandardAnalyzer());
Hits hits = is.search(query);
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
System.out.print(doc.get("telephone"));
}
假设未见hello.txt中存在1234567这个字符串。
输出结果为null
这个是以文件流为参数,他不保存原始的文件信息,但是支持索引。所以这个方法和unstore用起来是一样的。
发表评论
-
mysql分页查询
2010-11-03 17:01 3353MySql分页存储过程 MySql测试版本:5.0.41-co ... -
svn 权限分配
2010-09-19 11:39 2371转自:http://bbs.iusesvn.com/threa ... -
svn 安装配置-1
2010-09-19 11:38 1062转自:http://minedoc.iteye.c ... -
mysql数据库同步
2008-04-25 16:19 3881windows xp 下设置数据库 ... -
inverse
2008-01-17 10:31 1416前不久在搭建系统框架的时候遇到one-many与many-on ... -
CVSNT
2007-12-31 13:22 1648转自:http://blog.csdn.net/k ... -
mysql备份命令
2007-11-06 20:12 16104还原或者导入数据库命令: mysql -u root --p ... -
spry
2007-06-10 01:03 1569这几天给系统做页面级别的验证,主要是对一些输入参数进行控制。在 ... -
spring 发送html邮件
2007-05-05 19:00 8318对于spring发送邮件的部分看了几天,给小组的项目中添加了 ... -
outOfMemory
2006-12-31 16:17 2779收藏源地址:http://blog.s ... -
notify,wait,sleep
2006-12-29 22:29 2432转载别人的http://dev.cs ... -
ThreadPool
2006-12-25 21:33 1259package org.xml.upload; import ... -
数据库连接池
2006-12-25 21:31 1436package org.xml.upload; import ... -
arrayList
2006-12-25 21:28 1031private pool=new ArrayList(); p ... -
ArrayList 同步问题
2006-12-25 20:49 3593转载! [JAVA技术集锦]Java技巧:拷贝枚举器以加强效 ...
相关推荐
lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....
Lucene是一款强大的全文搜索引擎库,广泛应用于各种数据检索场景。在C#环境下,利用Lucene进行时间区间搜索是提高数据检索效率和精确度的重要手段。本篇将深入探讨如何在C#中实现Lucene的时间区间查询匹配,以及涉及...
【Lucene 4.7.0 全套JAR包详解】 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了一个高级、灵活的文本搜索API,允许开发者轻松地在应用程序中实现复杂的搜索功能。这次提供的“lucene-...
本压缩包包含的是Lucene 3.5.0版本的全部源码,对于想要深入理解Lucene工作原理、进行二次开发或者进行搜索引擎相关研究的开发者来说,是一份非常宝贵的学习资源。 Lucene 3.5.0是Lucene的一个重要版本,它在3.x...
《Lucene in Action 第二版》是一本深入探讨Apache Lucene全文检索库的专业书籍,它在Java开发领域具有很高的权威性。这本书详细介绍了如何利用Lucene进行高效的文本搜索和索引构建,是Java开发者和信息检索爱好者的...
在IT领域,搜索引擎技术是至关重要的,而Lucene作为一个开源全文搜索引擎库,广泛应用于各种文本检索系统中。本文将深入探讨Lucene示例中的BM25相似度计算,旨在帮助初学者理解如何利用Lucene 4.7.1版本构建索引、...
《Lucene与关系型数据库对比:深度解析与应用探索》 在信息爆炸的时代,数据管理和检索成为了企业乃至个人日常工作中不可或缺的部分。随着技术的发展,不同的数据处理方式应运而生,其中Lucene与关系型数据库作为两...
"计算机专业外文翻译(lucene相关)" 本文翻译了论文"Scale-up x Scale-out: A Case Study using Nutch/Lucene",介绍了计算机专业领域中关于Lucene相关的知识点。 Scale-up vs Scale-out 论文中讨论了两个相对...
赠送jar包:lucene-core-7.2.1.jar; 赠送原API文档:lucene-core-7.2.1-javadoc.jar; 赠送源代码:lucene-core-7.2.1-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.2.1.pom; 包含翻译后的API文档:lucene...
**Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架,Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...
赠送jar包:lucene-core-7.7.0.jar; 赠送原API文档:lucene-core-7.7.0-javadoc.jar; 赠送源代码:lucene-core-7.7.0-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.7.0.pom; 包含翻译后的API文档:lucene...
### Lucene3源码分析知识点概述 #### 一、全文检索的基本原理 ##### 1. 总论 全文检索系统是一种高效的信息检索技术,能够帮助用户在海量文档中快速找到包含特定关键词的信息。Lucene是Java领域内最受欢迎的全文...
《全面解析Lucene jar包:从基础到应用》 在信息技术高速发展的今天,搜索引擎已经成为我们获取信息不可或缺的工具。在Java领域,Lucene作为一个强大的全文搜索引擎库,深受开发者喜爱。本文将详细介绍“lucene所有...
Apache Lucene是一个开源全文搜索引擎库,它为Java开发者提供了强大的文本搜索功能。在这个"Lucene 5 主要jar包"中,我们找到了一系列与Lucene 5.0.0相关的jar文件,这些文件是构建和运行基于Lucene的搜索应用程序的...
**Lucene原理详解** Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护,是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单但功能强大的API,用于索引和搜索文本数据,使得开发者可以轻松地在...
在信息检索和存储系统中,Lucene是一个开源的全文搜索引擎库,广泛应用于各种需要全文搜索功能的软件项目中。为了高效地处理和检索存储的词项(term),Lucene使用了FST(有限状态转换器,Finite State Transducer)...
**基于Lucene技术的增量索引** 在信息技术领域,全文搜索引擎是处理大量数据查询的关键工具。Apache Lucene是一个开源的全文检索库,被广泛应用于构建高效、可扩展的搜索功能。本文将深入探讨如何利用Lucene实现...
### Lucene对XML文档建立索引的技术解析与实践 #### 一、引言 随着互联网技术的迅猛发展,非结构化数据(如XML文档)在企业和组织中的应用日益广泛。如何高效地处理这些非结构化的数据,特别是进行快速检索成为了一...
【标题】"lucene的jar包,欢迎下载"所涉及的知识点主要集中在Lucene这个开源全文搜索引擎库上。Lucene是Apache软件基金会的顶级项目,它是一个高性能、全文本搜索库,提供了完整的搜索功能,包括索引、查询、排序等...