- 浏览: 63646 次
- 性别:
- 来自: 北京
最新评论
-
hr10108:
你好!我刚开始涉及OpenNLP,现在我想自己生成一个标记名字 ...
openNLP(1)_分词 -
fuhao_987:
stonechao 写道你好,我也在用opennlp,想请教你 ...
openNLP(1)_分词 -
stonechao:
你好,我也在用opennlp,想请教你一个问题,我现在有很多单 ...
openNLP(1)_分词
文章列表
聚类对象的描述需要建立数据表示模型,聚类算法需要定义在包(bag)的概念之上,包允许相同的元素存在。
在统计自然语言处理中,聚类算法有两个重要的用途,第一个重要用途是用于试探性数据分析(exploratory data analysis ,EDA)。对于任何处理“量化”数据的应用来说,试探性数据分析是非常重要的方法。当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特征时,这是一个首要步骤。如果我们盲目地开始操作数据,而不对数据对象做任何事先的理解分析,最终结果常常会不如人意。
------------------------------------------- ...
结果评价:
常用的有准确率(P-precision)、召回率(R-recall)和它俩的调和平均。
其中准确率表示返回结果中正确的比例,召回率表示所有正确结果中返回的比例。
用图表示就是
正确 不正确 返回的结果 A B 未返回的结果 C D
准确率:A/(A+B)
召回率:A/(A+C)
文本聚类的5个步骤:
(1)模式表示,包括特征抽取与选择,把文本表示成可计算的形式;
(2)根据领域知识定义模式之间的距离测度公式;
(3)聚类或者分组 ...
刚开始接触,从中文的开始,有点大概的了解吧。。。
-------------------------------------------------------------
提到的文本聚类:
大致可以分类为两种类型:
(1)以G-HAC等算法为代表的层次凝聚法
(Mladenic D. feature subset in text-learning. In proc of the 10th European conf. on Machine learning ECML98,1998)
(2)以K-MEANS等算法为代表的平面划分法
(Sagar N. Sublanguage: Linguisti ...
我们都觉得,我们生命中的爱情若没有分量、无足轻重,那简直不可思议;我们总是想象我们的爱情是它应该存在的那种,没有了爱情,我们的生命将不再是我们应有的生命。
------不能承受的生命之轻
但愿爱情长久,他说:“你怎么不学医。”我说:“我学医就遇不到你了。”他说:“你会遇到医学院里的那个我。”
我们都坚信,满腹忧郁、留着吓人的长发的贝多芬本人,是在为我们伟大的爱情演奏“Es muss sein!”(非如此不可!)
句子边界的启发式检测算法:
(1)在.?!(和可能的;:-)出现位置之后加一个假设的句子边界。
(2)如果假设边界后面有引号,那么把假设边界移到引号后面。
(3)除去以下情况中句点的边界资格:
-如果在句点之前是一个不总出现在句子末尾的众所周知的缩写形式,而且通常后面会跟一
个大写的名字,例如Prof.或者vs.。
-如果句点前面是一个众所周知的缩写形式,但是句点后面没有大写词。这样即可正确地处
理像etc.或者Jr.这样的大多数缩写用法,这些缩写一般出现在句子的中间或者末尾。
(4)如果下面的条件成立,则除去?或者!的边界资格:
-这些符号 ...
二、功能标签
1、形式/功能差异
-ADV(副词作用的) - 标记成分不同于ADVP 或者是PP 当它当副词使用时。但是,成分修改一个ADVP通常没有-ADV。如果一个更加特别的标签(例如-TMP)可用,那么它将会单独使用,-ADV是暗含的意思,见(状语)这一节。
- NOM(名词性的)标记**和动名词当它们是以相同的方式使用的时候。
2、语法作用
-DTV (与格(名词、代词或形容词用作间接宾语时的一种形式)
- LGS (逻辑主语)
-PRD (谓语, 述语 (句子成分,对主语加以陈述,如 John went home 中的 went home))
-PUT 标识方位的补足语put
- ...
前言 :最近在研究自然语言处理,搞的很浅,然后下了openNLP,实现了分词和分句,现在要做词性标注,结果openNLP参照的是这个Penn Treebank Tags,所以没办法要看懂词性标注的结果,只有先看懂这个Penn Treebank Tags了。
附注:我下的 ...
前端时间看了一下openNLP,用了一下,把自己的体会写下来。。
首先,openNLP是关于自然语言处理的开源项目,可以用eclipse作为第三方插件,去它的官方网站http://incubator.apache.org/opennlp/index.html下载需要的包,或者直接去http://sourceforge.net/projects/opennlp/ 下载。导入三个包:maxent-3.0.0.jar,jwnl-1.3.3.jar,opennlp-tools-1.5.0.jar
下面说一下分词:
openNLP使用了不同的模型实现诸如分词,分句,标注。所以在使用之前需要下载对应的模型 ...