本月博客排行
-
第1名
Xeden -
第2名
fantaxy025025 -
第3名
bosschen - paulwong
- johnsmith9th
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - gengyun12
- wy_19921005
- vipbooks
- e_e
- benladeng5225
- wallimn
- ranbuijj
- javashop
- jickcai
- fantaxy025025
- zw7534313
- qepwqnp
- robotmen
- 解宜然
- ssydxa219
- sam123456gz
- zysnba
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- xpenxpen
- kaizi1992
- wiseboyloves
- jh108020
- xyuma
- ganxueyun
- wangchen.ily
- xiangjie88
- Jameslyy
- luxurioust
- mengjichen
- lemonhandsome
- jbosscn
- nychen2000
- zxq_2017
- lzyfn123
- wjianwei666
- forestqqqq
- ajinn
- siemens800
- hanbaohong
- 狂盗一枝梅
- java-007
- zhanjia
- 喧嚣求静
- Xeden
最新文章列表
自然语言处理中的分词问题总结
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。
如何界定分词
中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程;在英文中,单词之间 ...
coreNLP的使用
最近考虑做些英文词语词干化的工作,听说coreNLP这个工具不错,就拿来用了。
coreNLP是斯坦福大学开发的一套关于自然语言处理的工具(toolbox),使用简单功能强大,有;命名实体识别、词性标注、词语词干化、语句语法树的构造还有指代关系等功能,使用起来比较方便。
coreNLP是使用Java编写的,运行环境需要在JDK1.8,1.7貌似都不支持。这是需要注意的
coreNLP ...
30天了解30种技术系列(17)---词关系分析神器Word2vec
我本人是自然语言处理的从业者,同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.
Word2vec 是由Google开源,基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型,所以离这个Deep Learning 稍微差一些。
...
自然语言处理相关技术文献资源汇集
1、ACL Anthology
A Digital Archive of Research Papers in Computational Linguistics and Natural Language Processing
旧版:http://aclweb.org/anthology/
新版:http://aclanthology.info/
2、ACL Anthology N ...
使用Mahout实现自然语言处理
cestella/NLPWithMahout · GitHub是一个使用Mahout实现自然语言处理(NLP:Natural Language Processing)的开源项目。NLP一词来自于统计自然语言处理,来自google的研究主管Peter Norvig评价这本书:如果有人告诉我在一年内能赚一百万,那么就只有这本书能做到,我复制了这本书,并开始启动一个web 文本处理公司。Apache ...
自动抽取新闻网页中的主要内容
抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。 String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+br ...
通用句法生成器和线图分析法
自然语言处理的形式模型笔记
通用句法生成器:(General Syntactic Processer,GSP)基本数据结构是线图(chart)。因为树形图只能表示支配关系,而不能很好的表示前于关系。后来有被扩展成活性线图,以后线图是指活性线图。如下图所示:
活性线图中的两个规则,
1、在线图中容许从某个点出发,中间不经过其它结点,又重新 ...