bcmail-jdk14-132.jar
bcprov-jdk14-132.jar
checkstyle-all-4.2.jar
commons-codec-1.3.jar 通用包
commons-httpclient-3.1.jar 网络爬虫
commons-logging.jar 日志
dom4j-1.6.1.jar xml的底层
FontBox-0.1.0-dev.jar pdf的字体包
geronimo-stax-api_1.0_spec-1.0jar
htmllexer.jar 解析html包
htmlparser.jar 解析html包
log4j-1.2.15.jar 日志
lucene-core-3.0.0.jar lucene3.0的核心包
lucene3.0-highlighter.jar lucene3.0的高亮包
IK Analyzer3.2.0stable.jar IK Analyzer中文分词器
PDFBox-0.7.3.jar tika处理PDf格式的库
poi-3.6-20091214.jar tika处理mooffice文档的库
poi-ooxml-3.6-20091214.jar tika处理msoffice文档的库
poi-ooxml-schmas-3.6-20091214.jar tika处理msoffice文档的库
poi-scratchpad-3.6-20091214.jar
tagsoup-1.1.3.jar
tika-core-0.5.jar tika核心包
tika-parsers-0.5.jar tika文档解析库
xmlbeans-2.3.0.jar
log4j-1.2.15.jar 日志
pager-taglib.jar 分页标签库
jstl-1.2.jar 标签库
jstl.jar 标签库
分享到:
相关推荐
在这个入门教程中,我们将使用Lucene 4.7版本,结合IK Analyzer,一个专门针对中文分词的开源分析器,来学习如何构建一个简单的搜索引擎。 首先,你需要下载Lucene 4.7和IK Analyzer 2012-FF Hotfix 1。Lucene的...
1. **环境配置**:确保你已经安装了Java运行环境,并将Lucene和IkAnalyzer的jar包添加到项目的类路径中。 2. **创建索引**:首先,你需要使用Lucene的API建立索引。使用Analyzer接口的实现,如IkAnalyzer,来处理...
2. 创建Analyzer对象,通常使用`org.wltea.analyzer.lucene.IKAnalyzer`作为入口。 3. 使用Analyzer对象的`tokenStream`方法获取TokenStream,这是Lucene的抽象概念,代表分词流。 4. 遍历TokenStream,获取分词结果...
在IKAnalyzer3.2的压缩包文件中,"org"目录可能包含了IKAnalyzer的核心代码库,组织结构遵循Java的标准包命名规则,如`org IKAnalyzer.core`和`org IKAnalyzer.util`等,这些包包含了分词器的实现类、工具类以及与...
《深入理解Lucene5与IKAnalyzer5:构建高效全文搜索引擎》 在信息技术高速发展的今天,搜索引擎已经成为信息获取的重要工具。Lucene和IKAnalyzer作为Java领域内广泛应用的全文检索库和中文分词器,它们的结合为开发...
- **配置IK Analyzer**:在Lucene项目中,需要将IK Analyzer的jar包添加到类路径,并在配置文件中指定使用IKAnalyzer作为默认的分词器。 - **创建索引**:利用IK Analyzer进行中文文档的分词,然后使用Lucene的...
总的来说,这个压缩包提供了一套完整的Lucene环境,集成了IKAnalyzer分词器,可以用来构建具备中文处理能力的全文搜索引擎。开发者可以根据实际需求,选择合适的组件进行集成,实现更高效、更精准的文本搜索和处理。...
总的来说,IKAnalyzer6.5.0.jar 是一个强大且灵活的中文分词工具,适用于各种需要处理中文文本的Java应用,如搜索引擎构建、信息检索、文本分析等场景。通过配置和扩展,它可以适应各种复杂的分词需求,提高自然语言...
在您提供的资源中,"je-analysis-1.5.1.jar"、"lucene-core-3.5.0.jar" 和 "IKAnalyzer2012.zip" 是三个关键组件,它们在文本分词过程中扮演着重要角色。 首先,"je-analysis-1.5.1.jar" 是一个Java库,很可能是一...
标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...
solr的IK分词器JAR及配置文件 jar包和配置文件的放置位置不一样,详情可搜索 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...org.wltea.analyzer.lucene.IKAnalyzer jar
支持lucene5的 IKAnalyzer中文分词器 IKAnalyzer5.jar
IKAnalyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索和搜索引擎提供高效、快速的分词服务。这款工具广泛应用于Lucene、Elasticsearch、Solr等全文检索框架,以提高中文处理的性能。在给定的标题和描述...
【正文】 IK Analyzer 3.0 是一个专为 Lucene 设计的...通过其独特的算法和特性,IK Analyzer 3.0 提升了分词速度,增强了查询性能,降低了系统资源的占用,为开发者构建高效、精准的中文搜索引擎提供了有力的支持。
安装和配置过程通常包括解压压缩包、配置Solr的schema.xml文件以包含Ik Analyzer、启动Solr服务,并将Ik Analyzer相关的jar文件添加到Solr的类路径中。 总之,"solr-7.7.2+ik-analyzer-solr7x.zip"提供了Solr 7.7.2...
1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,解压缩后将jar包放入Solr的lib目录下,确保Solr运行时能加载到该分词器。 2. **配置Solr schema.xml**:在Solr的schema.xml文件中,定义字段类型(fieldType),...
这个开源项目致力于提供一个高效、易用且扩展性良好的中文处理工具,它在分词领域表现出色,广泛应用于搜索引擎、信息检索系统、自然语言处理等多个IT相关领域。 在描述中提到的"ik-analyzer-solr7.zip"是一个专门...
Analyzer analyzer = new IKAnalyzer(true); TokenStream tokenStream = analyzer.tokenStream("content", new StringReader("你的中文文本")); for (Token token : TokenIterator(tokenStream)) { System.out....
该jar包之前只支持Lucene4.7.2,因为我自己的项目用到的是Lucene5.3.1,所以我自己重写了IKAnalyzer.java以及IKTokenizer.java,并且重新编译之后替换了之前的.class文件,现在可以适用于Lucene5.3.1
ikanalyzer-lucene-8.0.0.jar