`
johnnyhg
  • 浏览: 348088 次
  • 来自: NA
社区版块
存档分类
最新评论

lucene下的contrib包介绍

    博客分类:
  • Java
阅读更多

analyzers 下分为两个包:

common :提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词

smartcn

SmartChineseAnalyzer 是一个智能中文分词模块, 能够利用概率对汉语句子进行最优切分, 并内嵌英文 tokenizer,能有效处理中英文混合的文本内容。 它的原理基于自然语言处理领域的隐马尔科夫模型(HMM), 利用大量语料库的训练来统计汉语词 汇的词频和跳转概率, 从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。 因为智能分词需要词典来保存词汇的统计 值,SmartChineseAnalyzer的运行需要指定词典位置,如何指定词典位置请参 考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile
SmartChineseAnalyzer
ant:
通过ant创建索引
Ant task to create Lucene indexes. 
db
我可以把Lucene的索引保存在BerkeleyDB中么?
可以,你可以使用BerkeleyDB保存Lucene索引。使用DbDirectory对象即可。
Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。
highlighter:高亮
lucli
使用Lucene命令行接口LUCLI(Lucene Cmmand-Line Interface)。LUCLI是通过命令行操作索引信息的第三方工具
memory内存索引
regex正则表达式搜索
remote远程搜索
snowball经典分词用具 主要支持欧洲语言
spatial位置感知搜索
spellchecker拼写检查,这个不错,比如用户搜索输错了,可以给用户一个提示
wordnet好像和同义词有关
xml-query-parser
不确定的包:
benchmark:好像和压力测试有关
collation:没看明白,不知道干嘛用:新增的Unicode支持及字符集(Collation)。
fast-vector-highlighter为大型文本新增快速向量高亮工具(fast-vector-highlighter)
instantiated:InstantiatedIndex,小型语料库替代的RAM存储
misc
queries
queryparser
surround
swing
wikipedia

分享到:
评论

相关推荐

    lucene所有的jar包

    本文将详细介绍“lucene所有的jar包”,特别是其中的“my的jar”和“ik的jar包”,以及它们在Lucene 4.9.0版本中的作用和使用方法。 一、Lucene简介 Lucene是Apache软件基金会的一个开放源代码项目,它提供了一个...

    lucene-4.7.0全套jar包

    - **Contrib模块**:包含社区贡献的扩展功能,可能包括特殊分词器、搜索建议等,如`lucene-join-4.7.0.jar`、`lucene-suggest-4.7.0.jar`等。 使用这些JAR包时,开发者需要根据具体需求选择合适的模块,并确保它们...

    lucene 3.0.1 jar包

    lucene-core-3.0.1.jar(核心包) contrib\analyzers\common\lucene-analyzers-3.0.1.jar(分词器) contrib\highlighter\lucene-highlighter-3.0.1.jar(高亮) contrib\memory\lucene-memory-3.0.1.jar(高亮)

    Lucene SpellChecker3.0.2

    Lucene SpellChecker for Lucene 3.0.2

    hadoop.contrib/lucene源码

    本文将深入探讨标题为“hadoop.contrib/lucene源码”的主题,即如何在Hadoop MapReduce框架下利用Lucene来构建倒排索引。 Hadoop是Apache软件基金会开发的一个分布式计算框架,它主要由HDFS(Hadoop Distributed ...

    lucene-6.5.0工具包

    标题中的“lucene-6.5.0工具包”正是这个强大库的一个特定版本,6.5.0代表着该版本发布时的一系列增强和改进。它不仅提供了基本的搜索功能,还支持高级的查询语法、索引优化和多语言处理。官方发布的这个工具包,...

    clucene-contrib-0.9.13.zip_C lucene_lucene

    总的来说,C Lucene为开发者提供了一个在C语言环境中实现高效全文搜索的途径,虽然它可能带来额外的稳定性挑战,但其性能优势和灵活性使其在特定场景下具有很高的价值。开发者在选择和使用C Lucene时,应充分考虑...

    使用Lucene.net进行全文搜索

    Lucene.NET是Apache Lucene项目的一个.NET版本,它提供了一个高效、可扩展的全文搜索库,适用于各种应用程序。本文将深入探讨如何使用Lucene.NET进行全文搜索,特别是针对多关键字匹配的场景。 首先,我们需要了解...

    lucene 3.4源码包,适用于XP,WIN7系统

    这个目录下包含了多个子模块,每个子模块对应Lucene的一个重要组成部分: 1. **core**:这是Lucene的核心组件,包含索引、查询解析、排序和过滤等基本功能。其中,Analyzer负责文本的预处理,如分词;Document和...

    lucene3.6.1

    《深入理解Lucene 3.6.1:核心与贡献模块解析》 Lucene是一个开源全文搜索引擎库,它为开发者提供了强大的...同时,`contrib` 文件夹下可能包含了更多具体模块的详细资料,帮助开发者深入学习和掌握这些工具的用法。

    Lucene用到的DLL及文件

    "PanGu.Lucene.Analyzer.dll"可能是Pangu分词器的Lucene集成版本,它允许开发者在Lucene的索引和查询过程中直接使用Pangu的分词功能。Analyzer是Lucene中非常关键的一个组件,它定义了如何处理文本,包括分词、去除...

    自己刚开发完成完美运行Lucene.net+SQL server(附数据源)童叟无欺

    3.使用了较新的Lucene.net,目前是3.0版本 4.使用了最后一版盘古分词(2016年版本) 5.使用Winform+webBrowser实现(webBrowser负责显示结果) 使用方式: 1.新建数据库,然后在新建的数据库中执行附件根目录的sql...

    Lucene.Net 2.9.2源码包

    在解压"Lucene.Net_2_9_2"文件后,开发者通常会找到源代码文件夹,其中包括多个子模块,如Core、Contrib、Test等,分别包含了Lucene.Net的主要组件和测试代码。开发者可以通过阅读源码来深入了解其实现原理,定制...

    lucene-4.10.3源码

    在`src/contrib`目录下可以找到这些模块的源码,它们提供了丰富的搜索应用场景。 四、源码学习方法 1. 阅读API文档:理解Lucene的接口和类的功能,这是理解源码的基础。 2. 跟踪代码流程:通过调试或代码阅读,了解...

    lucene-3.0.1库及源代码

    4. **贡献模块(contrib)**:包含社区贡献的扩展功能,如更多分词器、查询解析器等。 四、开发与调试 1. **集成Lucene**:开发者可以通过Maven或直接添加jar依赖将Lucene集成到Java项目中。 2. **创建索引**:...

    lucene2.9.1所有最新开发包及源码及文档

    (LUCENE_HOME/contrib/analyzers/smartcn/lucene-smartcn-2.9.1.jar) C) 第三方的中文分词器:如PaodingAnalyzer、IKAnalyzer 4) IndexWriter.MaxFieldLength: 指定域值的最大长度。 a) UNLIMITED 无限制的。 ...

    lucene 3.0.2

    lucene library. lucene-demos-XX.jar The compiled simple example code. luceneweb.war The compiled simple example Web Application. contrib/* Contributed code which extends and enhances Lucene, but...

    poi lucene jar 包

    lucene-core-3.0.3.jar ooxml-schemas-1.0.jar pdfbox-1.8.0.jar poi-3.5-beta6-20090622.jar poi-contrib-3.5-beta6-20090622.jar poi-ooxml-3.5-beta6-20090622.jar poi-scratchpad-3.5-beta6-20090622.jar ...

    lucene-2.9.4-src.zip

    这里我们关注的是它的2.9.4版本,即“lucene-2.9.4-src.zip”源代码包。这个版本在当时是一个稳定且功能丰富的搜索框架,提供了强大的文本分析、索引和搜索功能。 一、Lucene核心概念 1. 文档(Document):在...

    lucene 2.4.1源码在eclipse调试运行通过

    Lucene 2.4.1的源码结构清晰,主要分为几个核心模块,如core、analysis、demo、 contrib等。core模块包含了Lucene的基本搜索功能,analysis模块处理文本分析,demo模块包含了一些示例应用,而contrib模块则是一些...

Global site tag (gtag.js) - Google Analytics