最新文章列表

用深度学习做命名实体识别(一):什么是命名实体识别?

上一个深度学习系列介绍了如何检测出图片或视频中的物体,本深度学习系列将介绍如何从文章中提取出我们关注的实体,比如提取文章中出现的人名 ...
wx1569632409 评论(0) 有260人浏览 2019-09-28 09:05

pyhanlp 停用词与用户自定义词典功能详解

hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 ...
adnb34g 评论(0) 有758人浏览 2018-11-16 10:33

自然语言处理中的分词问题总结

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。 如何界定分词   中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程;在英文中,单词之间 ...
adnb34g 评论(0) 有509人浏览 2018-10-26 13:40

什么是自然语言处理技术

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工 ...
adnb34g 评论(0) 有425人浏览 2018-03-15 13:30

coreNLP的使用

最近考虑做些英文词语词干化的工作,听说coreNLP这个工具不错,就拿来用了。 coreNLP是斯坦福大学开发的一套关于自然语言处理的工具(toolbox),使用简单功能强大,有;命名实体识别、词性标注、词语词干化、语句语法树的构造还有指代关系等功能,使用起来比较方便。 coreNLP是使用Java编写的,运行环境需要在JDK1.8,1.7貌似都不支持。这是需要注意的   coreNLP ...
u010223750 评论(0) 有4796人浏览 2016-03-22 17:20

IT女神说自然语言处理(1)----LDA

PS:我非常有幸请到一位IT女神,为我们分享自然语言处理的相关实践,希望大家踊跃使用图灵搜索或者关注图灵搜索微信平台,获取女神的第一手技术 ...
jackchan 评论(1) 有2138人浏览 2015-08-28 16:29

30天了解30种技术系列(17)---词关系分析神器Word2vec

       我本人是自然语言处理的从业者,同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.     Word2vec 是由Google开源,基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型,所以离这个Deep Learning 稍微差一些。     ...
jackchan 评论(0) 有1725人浏览 2015-08-21 15:17

自然语言处理相关技术文献资源汇集

1、ACL Anthology A Digital Archive of Research Papers in Computational Linguistics and Natural Language Processing 旧版:http://aclweb.org/anthology/ 新版:http://aclanthology.info/   2、ACL Anthology N ...
yangshangchuan 评论(0) 有4603人浏览 2015-06-01 16:24

使用Mahout实现自然语言处理

cestella/NLPWithMahout · GitHub是一个使用Mahout实现自然语言处理(NLP:Natural Language Processing)的开源项目。NLP一词来自于统计自然语言处理,来自google的研究主管Peter Norvig评价这本书:如果有人告诉我在一年内能赚一百万,那么就只有这本书能做到,我复制了这本书,并开始启动一个web 文本处理公司。Apache ...
wbj0110 评论(0) 有770人浏览 2014-07-08 11:58

自动抽取新闻网页中的主要内容

抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。            String  content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+br ...
wbj0110 评论(0) 有808人浏览 2014-05-17 10:45

通用句法生成器和线图分析法

自然语言处理的形式模型笔记     通用句法生成器:(General Syntactic Processer,GSP)基本数据结构是线图(chart)。因为树形图只能表示支配关系,而不能很好的表示前于关系。后来有被扩展成活性线图,以后线图是指活性线图。如下图所示:         活性线图中的两个规则,   1、在线图中容许从某个点出发,中间不经过其它结点,又重新 ...
书凡世界 评论(0) 有1548人浏览 2014-05-08 16:09

短语结构语法

自然语言处理的形式模型笔记
书凡世界 评论(0) 有575人浏览 2014-05-04 14:49

自然语言处理的若干问题

一、语言模型 (一)N元语言模型 (二)语言模型性能评价 (三)数据平滑 (四)语言模型自适应方法  
thd52java 评论(0) 有1278人浏览 2013-11-08 16:18

中文分词基本算法介绍

中文分词基本算法介绍 本文内容框架: 1、基于词典的方法(字符串匹配,机械分词方法) 2基于统计的分词(无字典分词) 3基于规则的分词(基于语义) 4基于字标注的中文分词方法 5基于人工智能技术的中文分词方法 6中文分词的难点 7小结       基于词典的方法、基于统计的方法、基于规则的方法等 1、基于词典的方法(字符串匹配,机械分词方法) 定义: ...
DSQiu 评论(2) 有14811人浏览 2012-10-25 11:01

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics