本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- siemens800
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
最新文章列表
Hanlp在java中文分词中的使用介绍
项目结构
该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载
项目配置
修改hanlp.properties:
1 #/Test/src/hanlp.properties:
爬虫大集锦,喜欢爬虫的朋友有福啦
爬虫来啦
百度网盘爬虫:(牛人写的,喜欢的朋友可以看下)
http://www.cnblogs.com/huangxie/p/5473273.html
玩过爬虫的人都知道,被服务器拒绝了怎么办?看些这篇博客:(爬取代理地址,牛逼哄哄的)
http://www.cnblogs.com/huangxie/p/5464562.html
作为搜索,就知道玩LIKE,你就凹凸曼啦!快来看看: ...
中文分词mmseg4j+solr 5.3.1配置
基础环境:
solr 5.3.1
mmseg4j-solr-2.3.0.jar
mmseg4j-core-1.10.0.jar
CentOS release 6.2 (Final)
java version "1.7.0_71"
jar添加:
位置:solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib
配置:
在schema.xml中 ...
word v1.3 发布,Java 分布式中文分词组件
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、 ...
JAVA开源中文分词工具-IKAnalyzer下载及使用
关键字:中文分词、IKAnalyzer
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。
关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。
下载解压之后主要使用和依赖以下文件:
IKAnalyzer2012_u6.jar — ...