- 浏览: 126457 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (111)
- 资料总结参阅 (2)
- To Study List (2)
- notepaper (2)
- linux学习 (32)
- linux学习-included (3)
- 开源框架-Hibernate (2)
- 开源框架-Ibatis (1)
- JEE整理 (25)
- JEE Server参考 (5)
- 开源框架-Spring (1)
- 硬件知识 (5)
- 开发环境搭建及管理 (7)
- linux软件工具 (2)
- 数据库 (8)
- 各类文档参考 (1)
- 开源框架-Netty (1)
- 性能调优 (1)
- DP相关 (1)
- 软件知识 (3)
- 脚本语言-python (2)
- 脚本语言-perl (1)
- 分布式 (2)
最新评论
-
zhuxinhua:
谢谢,,这东西真不容易找啊。。
JBoss配置---收集中...
1. 概念
Store: 是否完整存储该Field的值
Index: 是否索引该Field的值,以便可以Search
Analyze: 是否分析(分词)该Field的值
如Field.Index.NOT_ANALYZED[Index=true, Analyze=false]表示索引但不分词,所以可以用其完整值进行搜索
2. Field
a. TermVectors
b. omitTermFreqAndPositions
c. omitNorms
设为true,会忽视字段中的 norm (这样就禁用了字段的length normalization和索引期间(index-time)字段的 boosting,同时会节省一些内存)。
仅full-text 和需要索引期间加 boosting的字段才需要 norm。
length normalization:长度越小的匹配Field,权重(boost)越高,表明匹配度越高。
3. 参考资料
http://www.cnblogs.com/forfuture1978/archive/2009/12/14.html
Store: 是否完整存储该Field的值
Index: 是否索引该Field的值,以便可以Search
Analyze: 是否分析(分词)该Field的值
如Field.Index.NOT_ANALYZED[Index=true, Analyze=false]表示索引但不分词,所以可以用其完整值进行搜索
2. Field
a. TermVectors
b. omitTermFreqAndPositions
c. omitNorms
设为true,会忽视字段中的 norm (这样就禁用了字段的length normalization和索引期间(index-time)字段的 boosting,同时会节省一些内存)。
仅full-text 和需要索引期间加 boosting的字段才需要 norm。
length normalization:长度越小的匹配Field,权重(boost)越高,表明匹配度越高。
3. 参考资料
http://www.cnblogs.com/forfuture1978/archive/2009/12/14.html
发表评论
-
jdbc规范
2011-06-02 17:45 16741. java.sql.*是jdbc2.0之前的东西 jav ... -
maven问题整理
2011-05-27 16:50 3477refer: http://www.jdonee.com/ca ... -
字节码增强框架ASM
2010-12-12 14:31 1192http://asm.ow2.org http://www.i ... -
数据库连接池DBCP
2010-12-05 11:23 851dbcp配置--官方文档中文 ... -
免费域名申请
2010-11-19 16:04 764domain.oray.com -
软件版本常识和软件版本号命名规则
2010-11-18 16:14 684Quoted from: http://robinjie.it ... -
中国雅虎的开发、测试及上线流程
2010-11-04 11:03 1519引自一个工程师的博客 ... -
ActiveMQ知识
2010-10-22 10:59 8681. static协议是broker端的构建network的协 ... -
JMX整理(待录入)
2010-10-20 14:51 755问题: 配置了JMX的相关参数后,仍无法连接 如: -Dcom ... -
负载均衡技术
2010-10-15 10:10 699http://www.360doc.com/content/1 ... -
关于集群环境下Session管理的解决方案
2010-10-13 10:42 17391. 基于Tomcat的解决方案,同样适用于以Tomcat为s ... -
常用的正则表达式
2010-10-10 17:36 683/^\[ \t]*$/ "^\[ \t]*$&quo ... -
关于负载均衡中的session
2010-09-07 16:14 6861. 一个常见的误解是以为session在有客户端访问时就被创 ... -
Eclipse中导入Tomcat源码
2010-09-06 15:42 750引自: http://panpan.blog.51cto.co ... -
jvm性能调优理论
2010-09-05 15:41 10371. 关于jvm使用的回收机 ... -
邮件模板css及html设计规范
2010-09-03 09:59 4242by dp corp. 邮件模板规范 邮件模板,请严格按照下 ... -
Code fragment
2010-09-01 11:39 7291. public boolean equals(Object ... -
开源产品归类
2010-08-30 13:36 7971. kvdb tc(tt), memcachedb, ... -
ssl配置(涉及cas)
2010-08-24 16:51 823http://hi.baidu.com/relucent/bl ... -
firefox插件
2010-08-19 17:03 7731. firebug(很好很强大) 2. cookie mon ...
相关推荐
在 Maven 项目中,可以在 pom.xml 文件中添加 Lucene 的依赖,或者在其他构建工具中进行相应的配置。对于非 Maven 项目,可以直接下载 Lucene 的 JAR 包并将其添加到项目的类路径中。 **Lucene 的基本组件** 1. **...
在Lucene 4.10.4版本中,我们看到这个压缩包文件"lucene4.10.4.jar"是该版本的核心库,包含了实现全文搜索功能所需的全部Java类和资源。这个版本的发布,是为了提供稳定且优化的搜索性能,同时也可能包括了错误修复...
标题:“整理Lucene.net一些简单属性说明” 在信息技术领域,搜索引擎是不可或缺的一部分,而Lucene.net作为Apache Lucene的.NET版本,为开发者提供了一套强大的全文搜索功能。这个文档将对Lucene.net的一些核心...
**Lucene.net学习笔记整理** 在信息技术领域,搜索引擎技术一直占据着重要的地位,尤其是在大数据时代,高效、精准的检索能力显得尤为重要。Lucene是Apache软件基金会的一个开源项目,它为Java开发者提供了一个高...
全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 ...
在"jsuop+lucene demo"项目中,这两个工具被结合使用,以实现一个简单的新闻爬虫系统,并在此基础上构建了全文索引查询功能,便于用户快速、准确地查找所需新闻内容。 **一、新闻爬虫** 1. **网络爬虫基础**:网络...
在本文中,我们将深入探讨Lucene的核心概念、包结构及其内部工作原理,以期为初学者提供一份详尽的入门指南。 #### 二、Lucene的包结构解析 Lucene的包结构设计得非常精细,每个包都承担着特定的功能角色,共同...
Lucene 提供了丰富的索引和搜索功能,包括分词、倒排索引、布尔查询等,使得开发者能够快速地在大量文本数据中实现高效检索。 **一、Lucene 的基本概念** 1. **文档(Document)**:在 Lucene 中,文档是信息的...
1. **集成Lucene**:首先,需要在Web应用中引入Lucene的库,并配置相应的Analyzer以适应网站内容的特性。 2. **索引构建**:定期或实时抓取网站内容,使用Lucene API建立索引。索引过程包括创建IndexWriter对象,...
【标题】: 向LUCENE搜索引擎中添加中文同义词查询 【描述】: 本文探讨了如何在Lucene搜索引擎中实现中文同义词查询,适合那些希望了解和使用Lucene同义词功能的读者。 【标签】: lucene同义词 【正文】: 随着...
在标题中提到的“标准中文词库”,指的是经过精心挑选和整理的中文词语的集合,这些词库通常包含了大量常用的词汇,并且可能会根据不同领域(如法律、医疗、技术等)来定制,以提高分词的准确性和效率。基于这样的...
《全面解析:Lucene-3.0.1 API——基于最新整理资料》 在信息技术日新月异的今天,搜索引擎技术扮演着至关重要的角色。Apache Lucene,作为一款开源的全文检索库,为开发者提供了强大的文本搜索功能。本文将基于...
这个项目,即“基于Lucene.Net开发的个人知识库”,展示了如何利用这一工具来整理、检索和管理个人知识。 Lucene.Net是一个开源的、高性能的全文搜索引擎库,它提供了高级的索引和搜索功能,适用于各种数据源,包括...
在Lucene中,一个文档的数据源通常由多个Field组成,例如文件路径、修改时间和内容。每个Field代表一种特定的数据类型,Document则是这些Field的容器,用于表示完整的文档信息。例如,一个文档文件可以包含一个表示...
Lucene和Nutch是两个在搜索引擎领域中极具影响力的开源项目,它们为开发者提供了构建高效、可扩展的全文搜索引擎的基础框架。本篇文章将深入探讨这两个项目的核心技术和应用场景。 Lucene是一个高性能、全文检索库...
超过22万词的词库整理 实现正向最大匹配算法 //采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该...
这是Lucene.NET v3.0.3 DEMO范例程序(含PanGu分词),用C#... 项目中还整理了一个后台任务线程监听范例,可以用作增量索引创建,但这个需要你自行加入相关具体的适合自己的代码…… 对了,这是基于.NET MVC的范例项目。
在Java开发环境中,Lucene被广泛应用,是一个成熟且免费的开源工具。除此之外,Lucene 也是一个单机版的搜索引擎,其最基本的功能分为写功能和读功能,写入的过程即为建立索引,读取的过程则是利用索引进行搜索。就...
好不容易整理的,分享给大家。 里面有4个文件,详细说明了全文检索的初步使用过程 第一个:Lucene(讲义).doc ...第三个:lucene_入门整理.pdf 第四个:Lucene教程详解.doc 绝对超值,新手必备宝典。超值分享。