最新文章列表

Solr-DIH建立索引并执行简单初步的查询

我们将solr的安装目录设置为$SOLR_INSTALL,   ./solr start,不使用任何原有的examples来进行,启动完成后,不存在任何的core,提示No cores available。   在手动执行Add Core操作时,需要保证instanceDir和dataDir事先必须存在,以便能够建立目录成功。       根据错误提示,目录应该建立在$SOLR ...
brandNewUser 评论(0) 有2277人浏览 2016-05-04 13:40

中文分词mmseg4j+solr 5.3.1配置

基础环境: solr 5.3.1 mmseg4j-solr-2.3.0.jar mmseg4j-core-1.10.0.jar CentOS release 6.2 (Final) java version "1.7.0_71" jar添加: 位置:solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib 配置: 在schema.xml中 ...
yiduwangkai 评论(0) 有2209人浏览 2016-01-10 14:32

Solr 5.x的搭建(Solr自带的Jetty Server)与mmseg4j中文分词

前言:        如果你对Solr怎么和Tomcat 集成以及如何使用mmseg4j和自定义的词库丰富完善中文分词,可以参照我的其它与Solr相关的博客。这篇将以简 ...
Josh_Persistence 评论(21) 有6595人浏览 2015-10-17 19:05

Slor5.x与mmseg4j的集成【使用solr自带的Jetty Server】

一、mmseg4j对Solr5.x的支持必须使用mmseg4j-2.0以上的版本,本例中我使用的是mmseg4j solr 2.3.0,使用的solr是截止目前为止的solr5.3.1,可下载附件,注意Solr-5.3.1是linux版本,如果需要windows版本,直接去官网上下载,so easy!   二、mmseg4j-2.0后的jar包只有两个了,一个是mmseg4j-core-1. ...
Josh_Persistence 评论(0) 有6406人浏览 2015-10-04 11:29

跟益达学Solr5之使用MMSeg4J分词器

       要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参 ...
lxwt909 评论(3) 有5301人浏览 2015-06-22 17:40

Lucene5学习之使用MMSeg4j分词器

       MMSeg4j是一款中文分词器,详细介绍如下:        1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。           ...
lxwt909 评论(4) 有6771人浏览 2015-04-30 15:03

Solr4.7.0中整合中文分词mmseg4j-1.9.1

             刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。              几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词 ...
Josh_Persistence 评论(5) 有8883人浏览 2014-04-20 02:22

Solr 4.3.1稳定版 安装部署平台搭建

  前言:            之前发表的SolrCloud写的太简洁(其实附件中的文档是很详细的)这里对于Solr我打算细致的好好写一篇。          这篇 ...
lucien_zzy 评论(3) 有10397人浏览 2014-01-09 21:15

solr4.3之配置中文分词mmseg4j

前面,笔者已经介绍过solr里面另外2种中文分词的配置,今天就来就简述一下mmseg4j在solr4.3里面的配置,mmseg4j也是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方 ...
qindongliang1922 评论(2) 有4019人浏览 2013-07-19 15:24

Solr 查询,索引

环境 Solr: apache-solr-3.6.2 Tomcat:Tomcat 6.0 JDK: jdk1.6 pc : windows7 Solr的安装和配置 首先 安装 jdk --> 然后 tomcat 下载solr 下载地址:http://apache.etoak.com/lucene/solr/1.4.1/ 详情请见:http://wiki.apache.org ...
Luob. 评论(0) 有7071人浏览 2013-04-18 20:32

solr学习笔记-linux下配置solr

本文地址: http://zhoujianghai.iteye.com/blog/1540176   首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源、高性能、采用Java开发、基于Lucene的全文搜索服务器,文档通过Http利用XML加到一个搜索集合中,查询该集合也是通过 http收到一个XML/JSON响应来实现。Solr 中存储的资源是以 D ...
zhoujianghai 评论(0) 有7935人浏览 2012-05-26 20:03

mmseg4j的字典数据结构(版本1.8.5)

    最近在做分词,在网上发现了MMSEG,论文简单入理。在code.google.com上搜到了java的实现版本,非常感谢chenlb开源自己的代码。     在学习mmseg4j对字典的结构比较困惑,做了些调研,写下自己的感受。     mmseg4j采用 key-tree的形式存储字典数据结构,这有点类似中科院的ictclas4j的字典结构,ictclas4j的字典结构含有6768个字块 ...
单眼皮大娘 评论(0) 有2752人浏览 2012-04-12 18:03

solr搜索服务器配置mmseg4j分词

为solr搜索服务器配置mmseg4j分词 , 并使用搜狗词库。 mmseg4j分词下载地址:http://code.google.com/p/mmseg4j/ , 搜狗词库下载地址:http://code.google.com/p/mmseg4j/downloads/detail?name=data.zip&can=2&q 下载最新更新:mmseg4j-1.8.5.zip(它 ...
wanglihu 评论(1) 有5568人浏览 2011-12-29 11:08

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics