最近比较轻松,准备学习Lucene。
Lucene是一个开源的文本搜索库后者称之为框架。貌似框架有点大。它只是提供一个java类库,帮助我们实现比较难做到的基于文本的查询。其核心功能为创建索引和根据索引的查询。
Solr是一个企业级的搜索服务,在Lucene基础上做了一个封装,可以运行在各种web服务器上。比如tomcat。我们可以把solr看作一个web的应用,部署到服务器上给我们提供一个基于http协议的查询服务。
下载地址 http://mirror.khlug.org/apache//lucene/solr/
源码下载地址 http://svn.apache.org/repos/asf/lucene/dev/trunk/
下载后解压,目录结构
.
├── client 访问solr的客户端代码
│ └── ruby ruby语言的客户端访问代码
│ └── solr-ruby
├── contrib 扩展包
│ ├── analysis-extras 分词
│ │ ├── lib
│ │ └── lucene-libs
│ ├── clustering 集群
│ │ └── lib
│ ├── dataimporthandler 数据导入
│ │ └── lib
│ ├── extraction 与Apache Tika集成
│ │ └── lib
│ ├── langid
│ │ └── lib
│ ├── uima 与Apache UIMA集成
│ │ └── lib
│ └── velocity
│ └── lib
├── dist 用于发布的文件
│ └── solrj-lib
├── docs
│ ├── api
│ │ ├── org
│ │ ├── resources
│ │ ├── solrj
│ │ └── test-framework
│ ├── images
│ └── skin
│ ├── css
│ ├── images
│ ├── scripts
│ └── translations
└── example
├── etc
├── example-DIH
│ ├── hsqldb
│ └── solr
├── exampledocs
├── lib
│ └── jsp-2.1
├── logs
├── multicore
│ ├── core0
│ ├── core1
│ └── exampledocs
├── solr
│ ├── bin
│ ├── conf
│ └── data
├── webapps
└── work
└── Jetty_0_0_0_0_8983_solr.war__solr__k1kf17
Solr在启动时会查找solr的home 目录,默认为当前启动目录下的solr目录。
solr的目录结构
.
├── bin
├── conf
│ ├── admin-extra.html
│ ├── elevate.xml
│ ├── mapping-FoldToASCII.txt
│ ├── mapping-ISOLatin1Accent.txt
│ ├── protwords.txt
│ ├── schema.xml
│ ├── scripts.conf
│ ├── solrconfig.xml
│ ├── spellings.txt
│ ├── stopwords_en.txt
│ ├── stopwords.txt
│ ├── synonyms.txt
│ ├── velocity
│ └── xslt
├── data
│ ├── index
│ └── spellchecker
├── README.txt
└── solr.xml
运行solr自带的示例
运行如下命令
eric@CN-14830-1:~/temp/solr/apache-solr-3.5.0/example$ java -jar start.jar
当看到日志输出
2012-02-24 09:56:06.291:INFO::Started SocketConnector@0.0.0.0:8983
即启动成功。
打开ie输入
http://localhost:8983/solr/admin/
即可。
分享到:
相关推荐
1. 下载并解压"ik-analyzer-solr7.zip"。 2. 将解压后的JAR文件添加到Solr的lib目录下,或者在Solr的`solrconfig.xml`中指定其位置。 3. 更新Solr的`schema.xml`文件,为需要分词的字段指定`analyzer`元素,并设置为...
1. `apache-solr-core-3.5.0.jar`: 这是Solr的核心库,包含了实现全文索引、查询、排序和结果高亮等功能的基础代码。其中,Solr服务器的核心功能如索引存储、查询处理、请求处理器和响应生成器都封装在这个JAR文件里...
1. 将 ikanalyzer-solr5 解压后,将其中的 jar 包复制到 Solr 的 `server/solr-webapp/webapp/WEB-INF/lib` 目录下,这样 Solr 就可以加载这个分词器。 2. 配置 Solr 的 schema.xml 文件,指定使用 ikanalyzer 作为...
这个压缩包中的主要文件"apache-solr-dataimportscheduler-1.0.jar"包含了实现这一功能所需的全部Java类和资源。 在Solr中,数据导入通常通过DataImportHandler (DIH) 完成,DIH是一个插件,负责从外部数据源(如...
总之,mmseg4j-solr-2.4.0.jar为Solr提供了强大的中文分词功能,使我们在处理中文信息时能获得更精准的搜索结果。通过合理的配置和调优,我们可以充分利用mmseg4j的优势,提升Solr系统的整体性能。在实际项目中,...
基于solr-geo空间搜索 1、Solr的schema.xml配置 定义坐标field 2、Solr的data-config.xml配置 建立索引 3、java查询语法 坐标距离、分页、排序
Apache Solr是一款开源的企业级搜索平台,它基于Lucene库,提供全文索引、分布式搜索、近实时搜索等多种功能,常用于构建高效的搜索引擎。Solr7是其第七个主要版本,引入了许多新特性和性能优化。 IK Analyzer,...
1. **安装与配置**:将mmseg4j-solr-2.2.0的jar包添加到Solr的lib目录下,然后在Solr的schema.xml中配置分词器,指定使用mmseg4j-solr的分词算法。 2. **定制词典**:mmseg4j-solr允许用户自定义词典,以适应特定...
在压缩包"apache-solr-1.4.0"中,包含了Solr的源代码、配置文件、示例文档以及其他必要的资源。对于喜欢研究Solr的人来说,这些源代码是深入理解其工作原理、定制功能以及优化性能的重要资料。通过对这些源码的研究...
mmseg4j-solr-2.2.0-with-mmseg4j-core.zip是一个专门为Solr 4.9版本设计的中文分词解决方案,旨在提升中文搜索的准确性和效率。 mmseg4j是基于Java实现的中文分词库,全称为“Minimum Edit Distance Segmentation ...
ikanalyzer是一个开源的、基于Java实现的中文分词库,主要用于解决中文文本处理中的分词问题,对于搜索引擎和信息检索系统尤其重要。在Solr中,分词器是构建高效、精准全文检索的关键组件。 首先,ikanalyzer-solr...
ikanalyzer 是一个专门为Java开发的中文分词器,它基于 Lucene 库,适用于各种文本处理和搜索引擎场景。在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 ...
在标题"ik-analyzer-solr-master_ik分词器_pocket7ce_源码_"中,ik-analyzer-solr-master表明这是一个针对Apache Solr优化的ik分词器版本,适合与Solr集成进行全文检索。 **Ik Analyzer简介** Ik Analyzer是由国人...
1. 高效性:ik-analyzer-solr7针对Solr7进行了优化,能够在大量数据处理中保持快速响应,提升整体搜索性能。 2. 灵活性:支持动态扩展词典,可以根据业务需求添加或更新专业词汇,提高分词准确性。 3. 智能性:内置...
Solr分词器是搜索引擎Apache Solr中的一个重要组件,它负责对输入的文本进行分析,将其拆分成可索引的基本单元——词语。"k-analyzer-solr" 是一个特定的分词器实现,用于优化Solr的文本处理流程。在Solr中,分词器...
Java开发人员经常利用Solr的全文检索技术,以实现强大的搜索功能。 在Apache Solr的官方参考指南中,首先介绍了如何通过Solr的网站下载安装包,并安装及配置Solr。Solr的安装和配置对于初次接触Solr的开发者来说是...
首先,我们需要解压“ik-analyzer-solr7.x.zip”,将解压后的“lib”目录下的所有JAR文件复制到Solr的“server/solr-webapp/webapp/WEB-INF/lib”目录下,以引入IK Analyzer的相关依赖。 然后,我们需要在Solr的...
1. `apache-solr-dataimportscheduler.jar`: 这是核心的定时同步插件,需要添加到Solr服务器的类路径中。 2. 数据导入配置文件:这些文件(通常是XML格式)定义了Solr如何与MySQL数据库通信,包括连接参数、SQL查询...
在Solr中,中文分词器扮演着至关重要的角色,因为搜索引擎需要将用户输入的中文查询进行分词处理,以便更准确地匹配索引中的内容。 **Solr** 是一个基于Apache Lucene的全文搜索服务器,它提供了高效、可扩展的企业...
ikanalyzer-solr-5这个子目录很可能是IK Analyzer的Solr插件版本,专门针对Solr 5.x版本进行优化。在这个目录下,可能包含以下文件: 1. `conf`目录:通常包含IK Analyzer的配置文件,如` IKAnalyzer.cfg.xml`,...