本月博客排行
-
第1名
Xeden -
第2名
fantaxy025025 -
第3名
bosschen - paulwong
- johnsmith9th
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - gengyun12
- wy_19921005
- vipbooks
- e_e
- benladeng5225
- wallimn
- ranbuijj
- javashop
- jickcai
- fantaxy025025
- zw7534313
- qepwqnp
- robotmen
- 解宜然
- ssydxa219
- sam123456gz
- zysnba
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- xpenxpen
- kaizi1992
- wiseboyloves
- jh108020
- xyuma
- ganxueyun
- wangchen.ily
- xiangjie88
- Jameslyy
- luxurioust
- mengjichen
- lemonhandsome
- jbosscn
- nychen2000
- zxq_2017
- lzyfn123
- wjianwei666
- forestqqqq
- ajinn
- siemens800
- hanbaohong
- 狂盗一枝梅
- java-007
- zhanjia
- 喧嚣求静
- Xeden
最新文章列表
NLP自然语言处理中的hanlp分词实例
本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文章。
学习内容
在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大 ...
GB2312, GBK
GB2312与GBK
对于中文来说,通常都是用GB2312字符集或者GBK字符集。GB2312最初指的是一个编码字符集,其中包含了ASCII所包含的英文字符,同时加入了6763个简体汉字以及其他一些ASCII之外的符号。GB2312字符集同样可以使用UTF-8或者UTF-16对字符进行编码,但是一般都是用GB2312字符集自己的编码方案,即直接使用一个字符在GB2312中的编号作为存储值 ...
编码字符集与字符集编码的区别
编码字符集与字符集编码
编码字符集是字符的集合,即对所有的字符进行编号,通过这个编号,就可以知道对应的字符。对于同一个字符,不同的字符集所制定的整数编号也不尽相同,例如“儿”这个字,在Unicode中,它的编号是0x513F,而在另一种编码字符集比如Big5中,这个字就是第0xA449个字符了。
字符集编码是如何将字符集中的一个字符的整数编号对应到一个计算机认识的二进制 ...
word v1.3 发布,Java 分布式中文分词组件
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、 ...
自己实现了一个维特比(Viterbi)算法的Python版本
Viterbi的算法在这边就不解释了。 主要可以参考:
(1) Wiki
详细介绍了算法的原理与python实现。
不过个人感觉看这个python的实现没太看懂。 于是乎自己在下面又写了一遍而且感觉相对来说要更清楚一些
(2) 知乎:谁能通俗的讲解下viterbi算法吗?
其中最高票的答案非常详细的一步步的描写了运算的过程
最好各位再在草稿纸上面写写画画以求彻底明白
...
LanguageTool规则加载
使用LanguageTool进行句子检查时,发现有些规则并没有出现在grammar.xml文件中,查看了下源代码发现它分两类规则分别加载。
第一类buildinRules,这部分规则是通过JLanguageTool的构造函数进行加载,以英国英语为例加载如下规则类文件:
CommaWhitespaceRule.class,
DoublePunctuationRule.c ...
JAVA自然语言处理NLP工具包
1. Java自然语言处理 LingPipe
LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query S ...
【转】互联网时代的社会语言学:基于SNS的文本数据挖掘
如此一篇好文章不能直接分享真是可惜了,这才是实习应该有的效果。学习了。
(文中有些用拼音代替的是出现了敏感词,汗,有些常用词也成敏感词了。。)
源地址:http://www.matrix67.com/blog/archives/5044
今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境, ...
Porter Stemmer 波特词干算法
/*
Porter stemmer in Java. The original paper is in
Porter, 1980, An algorithm for suffix stripping, Program, Vol. 14,
no. 3, pp 130-137,
...