analyzers下分为两个包:
common:提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词
smartcn
SmartChineseAnalyzer 是一个智能中文分词模块, 能够利用概率对汉语句子进行最优切分, 并内嵌英文tokenizer,能有效处理中英文混合的文本内容。 它的原理基于自然语言处理领域的隐马尔科夫模型(HMM), 利用大量语料库的训练来统计汉语词汇的词频和跳转概率, 从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。 因为智能分词需要词典来保存词汇的统计值,SmartChineseAnalyzer的运行需要指定词典位置,如何指定词典位置请参考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile
SmartChineseAnalyzer
ant:
通过ant创建索引
Ant task to create Lucene indexes.
db
我可以把Lucene的索引保存在BerkeleyDB中么?
可以,你可以使用BerkeleyDB保存Lucene索引。使用DbDirectory对象即可。
Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。
lucli
使用Lucene命令行接口LUCLI(Lucene Cmmand-Line Interface)。LUCLI是通过命令行操作索引信息的第三方工具
memory内存索引
regex正则表达式搜索
remote远程搜索
snowball经典分词用具 主要支持欧洲语言
spatial位置感知搜索
spellchecker拼写检查,这个不错,比如用户搜索输错了,可以给用户一个提示
wordnet好像和同义词有关
xml-query-parser
不确定的包:
benchmark:好像和压力测试有关
collation:没看明白,不知道干嘛用:新增的Unicode支持及字符集(Collation)。
fast-vector-highlighter为大型文本新增快速向量高亮工具(fast-vector-highlighter)
instantiated:InstantiatedIndex,小型语料库替代的RAM存储
分享到:
相关推荐
- **Contrib模块**:包含社区贡献的扩展功能,可能包括特殊分词器、搜索建议等,如`lucene-join-4.7.0.jar`、`lucene-suggest-4.7.0.jar`等。 使用这些JAR包时,开发者需要根据具体需求选择合适的模块,并确保它们...
- **contrib**(如果存在):包含社区贡献的额外模块和示例。 为了利用这个工具包,开发者需要具备一定的Java基础,并了解如何配置和使用Lucene API。通过阅读文档,学习如何创建索引、执行查询、管理和优化索引,...
4. **贡献模块(contrib)**:包含社区贡献的扩展功能,如更多分词器、查询解析器等。 四、开发与调试 1. **集成Lucene**:开发者可以通过Maven或直接添加jar依赖将Lucene集成到Java项目中。 2. **创建索引**:...
然而,对于那些更倾向于C语言环境或者寻求性能优化的开发者来说,"clucene-contrib-0.9.13.zip"提供了C版本的Lucene,名为C Lucene,它试图将Java Lucene的优秀特性移植到C语言中。 C Lucene的出现,源于对不同编程...
该一整套lucene开发jar包包含以下内容...contrib\analyzers\common\lucene-analyzers-3.0.1.jar(分词器) contrib\highlighter\lucene-highlighter-3.0.1.jar(高亮) contrib\memory\lucene-memory-3.0.1.jar(高亮)
2. contrib模块:包含了一些社区贡献的扩展功能,如拼音支持、XML解析、邮件索引等。 3. test-framework模块:提供了测试基础设施,用于验证Lucene的功能和性能。 4. 示例(demo)模块:包含了一些简单的示例程序...
本文将详细介绍“lucene所有的jar包”,特别是其中的“my的jar”和“ik的jar包”,以及它们在Lucene 4.9.0版本中的作用和使用方法。 一、Lucene简介 Lucene是Apache软件基金会的一个开放源代码项目,它提供了一个...
`contrib`目录包含了社区开发的附加组件,如 SpellChecker(拼写检查)、Highlighter(高亮显示) 和 Ant任务等,它们丰富了Lucene的功能,满足更多应用场景。 通过对`lucene-3.3.0-src.zip`源码的深入学习,...
在lucene-2.9.4的`contrib/`目录下,包含了一些示例程序,如SimpleTextDirectoryIndexer和SearchAndDisplay,它们分别演示了如何创建索引和执行搜索,是学习Lucene的绝佳起点。 总结,Apache Lucene 2.9.4是搜索...
在`src/contrib`目录下可以找到这些模块的源码,它们提供了丰富的搜索应用场景。 四、源码学习方法 1. 阅读API文档:理解Lucene的接口和类的功能,这是理解源码的基础。 2. 跟踪代码流程:通过调试或代码阅读,了解...
包括以下: commons-codec-1.5.jar commons-logging-1.1.jar ...poi-contrib-3.5-beta6-20090622.jar poi-ooxml-3.5-beta6-20090622.jar poi-scratchpad-3.5-beta6-20090622.jar xmlbeans-2.3.0.jar
其次,Lucene的贡献模块(contrib)是社区开发者贡献的一系列辅助工具,丰富了Lucene的功能,其中包括: 1. **关键词高亮**:通过 contrib 高亮模块,可以在搜索结果中突出显示匹配的关键词,提升用户体验。这对于...
Lucene SpellChecker for Lucene 3.0.2
lucene library. lucene-demos-XX.jar The compiled simple example code. luceneweb.war The compiled simple example Web Application. contrib/* Contributed code which extends and enhances Lucene, but...
contrib/* Contributed code which extends and enhances Apache Lucene.Net, but is not part of the core library. DOCUMENTATION MSDN style API documentation for Apache Lucene.Net exists. Those can be ...
本文将深入探讨标题为“hadoop.contrib/lucene源码”的主题,即如何在Hadoop MapReduce框架下利用Lucene来构建倒排索引。 Hadoop是Apache软件基金会开发的一个分布式计算框架,它主要由HDFS(Hadoop Distributed ...
Lucene 2.4.1的源码结构清晰,主要分为几个核心模块,如core、analysis、demo、 contrib等。core模块包含了Lucene的基本搜索功能,analysis模块处理文本分析,demo模块包含了一些示例应用,而contrib模块则是一些...
1、复制lucene-analyzers-smartcn-7.2.0.jar(在contrib/analysis-extras/lucene-libs目录下)到server/solr-webapp/webapp/WEB-INF/lib目录下 2、在managed-schema(在server/solr/stu/conf目录下,这里选的自定义...
Lucene.NET是Apache Lucene项目的一个.NET版本,它提供了一个高效、可扩展的全文搜索库,适用于各种应用程序。本文将深入探讨如何使用Lucene.NET进行全文搜索,特别是针对多关键字匹配的场景。 首先,我们需要了解...
Lucene 是 Java Lucene 搜索引擎的 C 移植版本。包含组件:liblucene libraryliblucene -contrib librarylucene -tester (unit tester)deletefiles (demo)indexfiles (demo)searchfiles (demo) 标签:lucene