最新文章列表

基于机器学习(machine learning)的SEO实战日记5--分词与词频计算

经过运行抓取程序,抓到的数据网站数量为4305个,接下来,需要进行分词处理,分词后,再统计词出现的次数,词出现的次数一部分提现了本类网站中该次的竞争情况。分词使用的hanlp开源项目,关于该开源项目的引用与使用,此处不详细介绍,读者可以访问 https://github.com/hankcs/HanLP了解详情。本篇博客涵盖的内容包括:分词、统计词频、结果保存数据库。表结构和相关代码如下: 表名:r ...
黄国甫 评论(0) 有639人浏览 2019-12-30 14:40

solr 5.0搭建 和使用 ik分词

1.将下载来的solr-5.0.0.zip解压。 创建D:\mysoftsetup\solrserver目录,复制solr-5.0.0\server\solr下所有文件到D:\mysoftsetup\solrserver, 复制Tomcat 到 D:\mysoftsetup\solrserver 目录 把solr-5.0.0\server\webapps\solr.war放到tomcat的w ...
gjp014 评论(0) 有490人浏览 2017-12-19 15:14

不错的php分词系统-PHPAnalysis无组件分词系统

      分词系统简介:PHPAnalysis分词程序使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方便。 由于PHPAn ...
yangjiyue 评论(0) 有758人浏览 2017-11-14 08:09

python中文分词,使用结巴分词对python进行分词

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Vi ...
yangjiyue 评论(0) 有1388人浏览 2017-11-12 15:32

python中文分词,使用结巴分词对python进行分词

在采集美女图片时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了V ...
yangjiyue 评论(0) 有777人浏览 2017-11-09 14:52

Lucene 6.0 提取新闻热词Top-N

Lucene 6.0 提取新闻热词Top-N
java-007 评论(0) 有799人浏览 2017-02-08 15:54

solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用

solr就不多介绍了。是用于搜索功能的开源工具,很强大   一、solr环境部署 solr本身能够用jetty启动,但是还是用tomcat启动比较适合我自己。学习solr有两个星期了,到现在(2016.11.27)solr最新版已经是6.3.0了,不过没关系,基本的东西都是一样的。 1、solr官网: http://lucene.apache.org/solr/ 下载后解压,是这样的目录 ...
莫欺少年穷Java 评论(0) 有5060人浏览 2016-11-27 11:11

IKAnalyzer分词器

import java.io.IOException; import java.io.StringReader; import java.util.HashMap; import java.util.Map; import org.wltea.analyzer.core.IKSegmenter; import org.wltea.analyzer.core.Lexeme; ...
5keit 评论(0) 有675人浏览 2016-08-09 10:18

Lucene-5.5.2 Field域创建时,分词与不分词的理解

首页,大家可以先看下这个文章引用【http://iamyida.iteye.com/blog/2194345】 我以前是用的是lucene 3.X版本,后来某些原因要更新到lucene 5.x版本,所以选择了5.5.2版本,在升级的过程中查阅了资料。其中就是在LUCENE4 版本及以前都是使用 doc.add(new Field(groupName, dwgContent, Field.Stor ...
wj.geyuan 评论(0) 有1752人浏览 2016-07-21 18:07

elasticsearch 学习笔记(2)-客户端编程【原创】

客户端编程可以自己封装json http请求,也可以采用es客户端API。这里介绍API方式。 1. 初始化Client public void init() { String clusterName="elasticsearch"; String ip= "192.168.180.15"; Settings settings = Setti ...
zhenggm 评论(0) 有1378人浏览 2016-06-03 16:26

elasticsearch 学习笔记(1)-安装指南【原创】

Windows 下的安装太简单,不说了。只说linux下的安装。 关闭防火墙: service iptables stop jdk 1.7安装 vi /etc/profile 增加 #set java JDK JAVA_HOME=/usr/local/jdk1.7.0_79/ ...
zhenggm 评论(0) 有793人浏览 2016-06-03 15:17

Elasticsearch 倒排索引 + 分词

原文链接:http://aoyouzi.iteye.com/blog/215151    
study121007 评论(0) 有2257人浏览 2016-04-17 16:46

与Lucene 4.10配合的中文分词比较(转)

比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分词源代码介绍 paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。
duanfei 评论(0) 有830人浏览 2015-12-05 10:44

word v1.3 发布,Java 分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、 ...
yangshangchuan 评论(1) 有6282人浏览 2015-08-29 09:51

ansj词典加载及简要分词过程

粗略看了点ansj源代码,记录备忘。   词典等配置文件加载类(以调用NlpAnalysis分词类为例): 1,  MyStaticValue 初始化NlpAnalysis中static的静态变量splitword时调用了MyStaticValue类,该类中几乎所有变化、方法均是静态的。包括以ResourceBundle.getBundle("library")获取l ...
goofyan 评论(0) 有6398人浏览 2015-07-03 09:38

JAVA中文切词

因项目需要对中文进行切词,故找同事要了段代码,现记录下来,以便日后使用 public  static String detailData(String text) throws IOException{   String returnStr = "";   //创建分词对象   Analyzer anal = new IKAnalyzer(true);   ...
lin358 评论(0) 有887人浏览 2015-05-12 10:22

Java分布式中文分词组件word分词v1.2发布

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。   自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、 ...
jsczxy2 评论(0) 有812人浏览 2015-04-20 12:07

Paoding Analyze 庖丁解牛 分词

http://wisdombrave.iteye.com/blog/570341 (已迁移)
wkm 评论(0) 有1816人浏览 2015-02-11 19:26

jieba中文分词

package com.huaban.analysis.jieba.test; import java.util.Iterator; import java.util.List; import com.huaban.analysis.jieba.JiebaSegmenter; import com.huaban.analysis.jieba.SegToken; import co ...
java--hhf 评论(1) 有8136人浏览 2015-01-30 21:55

IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量

选手:IKanalyzer、ansj_seg、jcseg 硬件:i5-3470 3.2GHz 8GB win7 x64 比赛项目:1、搜索;2、自然语言分析 选手介绍:   1,IKanalyzer   IKanalyzer采用的是 ...
lies_joker 评论(1) 有10858人浏览 2015-01-06 13:05

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics