`
fuhao_987
  • 浏览: 63646 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
   聚类对象的描述需要建立数据表示模型,聚类算法需要定义在包(bag)的概念之上,包允许相同的元素存在。 在统计自然语言处理中,聚类算法有两个重要的用途,第一个重要用途是用于试探性数据分析(exploratory data analysis ,EDA)。对于任何处理“量化”数据的应用来说,试探性数据分析是非常重要的方法。当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特征时,这是一个首要步骤。如果我们盲目地开始操作数据,而不对数据对象做任何事先的理解分析,最终结果常常会不如人意。 ------------------------------------------- ...
结果评价: 常用的有准确率(P-precision)、召回率(R-recall)和它俩的调和平均。 其中准确率表示返回结果中正确的比例,召回率表示所有正确结果中返回的比例。 用图表示就是                            正确       不正确 返回的结果        A            B 未返回的结果    C           D 准确率:A/(A+B) 召回率:A/(A+C) 文本聚类的5个步骤: (1)模式表示,包括特征抽取与选择,把文本表示成可计算的形式; (2)根据领域知识定义模式之间的距离测度公式; (3)聚类或者分组 ...
刚开始接触,从中文的开始,有点大概的了解吧。。。 ------------------------------------------------------------- 提到的文本聚类: 大致可以分类为两种类型: (1)以G-HAC等算法为代表的层次凝聚法 (Mladenic D. feature subset in text-learning. In proc of the 10th European conf. on Machine learning ECML98,1998) (2)以K-MEANS等算法为代表的平面划分法 (Sagar N. Sublanguage: Linguisti ...
我们都觉得,我们生命中的爱情若没有分量、无足轻重,那简直不可思议;我们总是想象我们的爱情是它应该存在的那种,没有了爱情,我们的生命将不再是我们应有的生命。                                                  ------不能承受的生命之轻 但愿爱情长久,他说:“你怎么不学医。”我说:“我学医就遇不到你了。”他说:“你会遇到医学院里的那个我。” 我们都坚信,满腹忧郁、留着吓人的长发的贝多芬本人,是在为我们伟大的爱情演奏“Es muss sein!”(非如此不可!)
句子边界的启发式检测算法: (1)在.?!(和可能的;:-)出现位置之后加一个假设的句子边界。 (2)如果假设边界后面有引号,那么把假设边界移到引号后面。 (3)除去以下情况中句点的边界资格:      -如果在句点之前是一个不总出现在句子末尾的众所周知的缩写形式,而且通常后面会跟一       个大写的名字,例如Prof.或者vs.。      -如果句点前面是一个众所周知的缩写形式,但是句点后面没有大写词。这样即可正确地处       理像etc.或者Jr.这样的大多数缩写用法,这些缩写一般出现在句子的中间或者末尾。 (4)如果下面的条件成立,则除去?或者!的边界资格:      -这些符号 ...
二、功能标签 1、形式/功能差异 -ADV(副词作用的) - 标记成分不同于ADVP 或者是PP 当它当副词使用时。但是,成分修改一个ADVP通常没有-ADV。如果一个更加特别的标签(例如-TMP)可用,那么它将会单独使用,-ADV是暗含的意思,见(状语)这一节。 - NOM(名词性的)标记**和动名词当它们是以相同的方式使用的时候。 2、语法作用 -DTV (与格(名词、代词或形容词用作间接宾语时的一种形式) - LGS (逻辑主语) -PRD (谓语, 述语 (句子成分,对主语加以陈述,如 John went home 中的 went home)) -PUT  标识方位的补足语put - ...
前言 :最近在研究自然语言处理,搞的很浅,然后下了openNLP,实现了分词和分句,现在要做词性标注,结果openNLP参照的是这个Penn Treebank Tags,所以没办法要看懂词性标注的结果,只有先看懂这个Penn Treebank Tags了。 附注:我下的 ...
前端时间看了一下openNLP,用了一下,把自己的体会写下来。。 首先,openNLP是关于自然语言处理的开源项目,可以用eclipse作为第三方插件,去它的官方网站http://incubator.apache.org/opennlp/index.html下载需要的包,或者直接去http://sourceforge.net/projects/opennlp/ 下载。导入三个包:maxent-3.0.0.jar,jwnl-1.3.3.jar,opennlp-tools-1.5.0.jar 下面说一下分词: openNLP使用了不同的模型实现诸如分词,分句,标注。所以在使用之前需要下载对应的模型 ...
Global site tag (gtag.js) - Google Analytics