本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- lzyfn123
- zhanjia
- forestqqqq
- johnsmith9th
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
solr 5.0搭建 和使用 ik分词
1.将下载来的solr-5.0.0.zip解压。
创建D:\mysoftsetup\solrserver目录,复制solr-5.0.0\server\solr下所有文件到D:\mysoftsetup\solrserver,
复制Tomcat 到 D:\mysoftsetup\solrserver 目录
把solr-5.0.0\server\webapps\solr.war放到tomcat的w ...
python中文分词,使用结巴分词对python进行分词
在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法.
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Vi ...
python中文分词,使用结巴分词对python进行分词
在采集美女图片时,需要对关键词进行分词,最终采用的是python的结巴分词方法.
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了V ...
IKAnalyzer分词器
import java.io.IOException;
import java.io.StringReader;
import java.util.HashMap;
import java.util.Map;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
...
elasticsearch 学习笔记(2)-客户端编程【原创】
客户端编程可以自己封装json http请求,也可以采用es客户端API。这里介绍API方式。
1. 初始化Client
public void init() {
String clusterName="elasticsearch";
String ip= "192.168.180.15";
Settings settings = Setti ...
elasticsearch 学习笔记(1)-安装指南【原创】
Windows 下的安装太简单,不说了。只说linux下的安装。
关闭防火墙:
service iptables stop
jdk 1.7安装
vi /etc/profile 增加
#set java JDK
JAVA_HOME=/usr/local/jdk1.7.0_79/ ...
与Lucene 4.10配合的中文分词比较(转)
比较目的
衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。
分词源代码介绍
paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。
word v1.3 发布,Java 分布式中文分词组件
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、 ...
ansj词典加载及简要分词过程
粗略看了点ansj源代码,记录备忘。
词典等配置文件加载类(以调用NlpAnalysis分词类为例):
1, MyStaticValue
初始化NlpAnalysis中static的静态变量splitword时调用了MyStaticValue类,该类中几乎所有变化、方法均是静态的。包括以ResourceBundle.getBundle("library")获取l ...
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。
自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、 ...
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
选手:IKanalyzer、ansj_seg、jcseg
硬件:i5-3470 3.2GHz 8GB win7 x64
比赛项目:1、搜索;2、自然语言分析
选手介绍:
1,IKanalyzer
IKanalyzer采用的是 ...