最新文章列表

用深度学习做命名实体识别(一):什么是命名实体识别?

上一个深度学习系列介绍了如何检测出图片或视频中的物体,本深度学习系列将介绍如何从文章中提取出我们关注的实体,比如提取文章中出现的人名 ...
wx1569632409 评论(0) 有259人浏览 2019-09-28 09:05

NLP自然语言处理中的hanlp分词实例

  本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文章。   学习内容   在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大 ...
adnb34g 评论(0) 有428人浏览 2019-02-18 10:10

JVM 字符编码转换

JVM中字符都以UTF-16的编码方式存在,即在代码中定义的所有变量和数据,在JVM中都是按照UTF-16进行编码。然而,JVM只是Java的虚拟机,所有数据最终还是 ...
QU66Q 评论(0) 有722人浏览 2015-11-27 10:59

GB2312, GBK

GB2312与GBK   对于中文来说,通常都是用GB2312字符集或者GBK字符集。GB2312最初指的是一个编码字符集,其中包含了ASCII所包含的英文字符,同时加入了6763个简体汉字以及其他一些ASCII之外的符号。GB2312字符集同样可以使用UTF-8或者UTF-16对字符进行编码,但是一般都是用GB2312字符集自己的编码方案,即直接使用一个字符在GB2312中的编号作为存储值 ...
QU66Q 评论(0) 有640人浏览 2015-11-26 22:56

编码字符集与字符集编码的区别

编码字符集与字符集编码       编码字符集是字符的集合,即对所有的字符进行编号,通过这个编号,就可以知道对应的字符。对于同一个字符,不同的字符集所制定的整数编号也不尽相同,例如“儿”这个字,在Unicode中,它的编号是0x513F,而在另一种编码字符集比如Big5中,这个字就是第0xA449个字符了。     字符集编码是如何将字符集中的一个字符的整数编号对应到一个计算机认识的二进制 ...
QU66Q 评论(0) 有551人浏览 2015-11-26 22:42

word v1.3 发布,Java 分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、 ...
yangshangchuan 评论(1) 有6255人浏览 2015-08-29 09:51

自己实现了一个维特比(Viterbi)算法的Python版本

Viterbi的算法在这边就不解释了。 主要可以参考: (1) Wiki 详细介绍了算法的原理与python实现。  不过个人感觉看这个python的实现没太看懂。 于是乎自己在下面又写了一遍而且感觉相对来说要更清楚一些   (2) 知乎:谁能通俗的讲解下viterbi算法吗? 其中最高票的答案非常详细的一步步的描写了运算的过程 最好各位再在草稿纸上面写写画画以求彻底明白   ...
RangerWolf 评论(0) 有5657人浏览 2015-07-22 12:20

Stanford NLP第三课“最小编辑距离(Minimum Edit Distance)”

一、课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:链接地址 以下是本课程 ...
NLP 
wbj0110 评论(0) 有1565人浏览 2015-04-01 09:54

寻找《红楼梦》十大话唠

  定义,匹配如下形式的{话语},认为是会“话”内容,其他认为非会话内容: [冒号] [左双引号] {话语}[右双引号]    先看看结果: 1.整本书会话内容与非会话内容对比:  2. 按说话的句数(每个配对的双引号算一句)统计Top10:  3. 按说话的总字数统计Top10  基本实现思路如下: 1. 下载纯文本的《红楼梦》文件,作简单的数据清洗   将西文的冒号、双引 ...
chen4w 评论(2) 有1917人浏览 2014-12-07 22:33

LanguageTool规则加载

使用LanguageTool进行句子检查时,发现有些规则并没有出现在grammar.xml文件中,查看了下源代码发现它分两类规则分别加载。 第一类buildinRules,这部分规则是通过JLanguageTool的构造函数进行加载,以英国英语为例加载如下规则类文件:         CommaWhitespaceRule.class,         DoublePunctuationRule.c ...
deadspace 评论(0) 有1827人浏览 2014-04-25 11:19

JAVA自然语言处理NLP工具包

1. Java自然语言处理 LingPipe LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query S ...
NLP 
usenrong 评论(0) 有8446人浏览 2014-02-12 16:08

【转】互联网时代的社会语言学:基于SNS的文本数据挖掘

如此一篇好文章不能直接分享真是可惜了,这才是实习应该有的效果。学习了。 (文中有些用拼音代替的是出现了敏感词,汗,有些常用词也成敏感词了。。) 源地址:http://www.matrix67.com/blog/archives/5044   今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境, ...
384444165 评论(0) 有1581人浏览 2013-10-16 20:45

【svm学习笔记】svm_理论基础2

【线性可分问题 之 问题】 先从最简单的情况说起,说线性可分问题。问题是这样的,至少可以想象是这样的:在二维空间中有一些点,分别属于两个 ...
NLP 
teseyinzhi 评论(0) 有2人浏览 2012-08-29 12:45

Ubuntu 12.04下NLTK的安装

安装NLTK之前,先用一下apt-cache search命令搜索一下NLTK包在软件源中具体的名字:   $ apt-cache search nltk #搜索软件包    python-nltk - Python libraries for natural language processing     $ apt-cache show python-nltk #显示版 ...
NicoLiu 评论(0) 有3148人浏览 2012-06-08 17:20

【原】Python NLP实战之一:环境准备

最近正在学习Python,看了几本关于Python入门的书和用Python进行自然语言处理的书,如《Python编程实践》、《Python基础教程》(第2版)、《Python自然语言处理》(影印版)。因为以前是学Java的,有着良好的面向对象的思维方式,所以刚开始看Python的语法,觉得Pyhon太随意了,很别扭,有不正规之嫌。而且,Python自己也正在向面向对象(OO)靠拢。但是,后来看到Py ...
liliphd 评论(0) 有6222人浏览 2012-05-07 20:16

stanford的一些课程

很多名校的课程都开放了~近期stanford更是突出 一口气报到了明年的课程 感兴趣的盆友们可以看看~ 自然语言处理 http://www.nlp-class.org/ 机器学习 http://jan2012.ml-class.org/ 算法设计分析 http://www.algo-class.org/ 人工智能 http://www.algo-class.org/ 人机交互 http:/ ...
lcf11824 评论(0) 有1047人浏览 2011-11-30 11:09

Porter Stemmer 波特词干算法

/* Porter stemmer in Java. The original paper is in Porter, 1980, An algorithm for suffix stripping, Program, Vol. 14, no. 3, pp 130-137, ...
nudtgk2000 评论(0) 有6757人浏览 2011-10-26 08:17

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics