`

pyhanlp 共性分析与短语提取内容详解

阅读更多



 pyhanlp 共性分析与短语提取
内容详解

 

简介

HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。

共性分析



 

互信息mi,左熵lr,右熵re,详细解释见下文

信息论中的互信息



  

 

一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。信宿收到y后推测信源发出x的概率,这一过程可由后验概率p(x|y)来描述。相应地,信源发出x的概率p(x)称为先验概率。我们定义x的后验概率与先验概率比值的对数为y对x的互信息量(简称互信息)。

根据熵的连锁规则,有

 

1| H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

 

因此,

 

1|H(X) - H(X|Y) = H(Y) - H(Y|X)

 

这个差叫做X和Y的互信息,记作I(X;Y)。



  

 

 

其中P(x) 为 单词x出现的次数与总单词数的比值(数学含义为单词x出现的概率)。而P(x,y)则为二阶短语x->y 出现的次数与所有二阶短语的次数。

 

比如在刚刚的说明中,假设默认分词方式将“后验概率”分为“后验”,“概率” 两个大短语,则后验->概率 这个二阶短语一共出现了两次,假设所有二阶短语合共有一百个,则p(后验->概率) = 2 /100 = 1/ 50。

 

要注意的是hanlp作者个的文章《基于互信息和左右信息熵的短语提取识别》中。公式与表标准定义的互信息并不一致,少乘了一个p(x,y),查看源码发现作者确实是按照没有p(x,y)的公式进行计算的。不过使用简化公式计算似乎也是没有问题的。此处还可以参考大鱼的一篇文章

 

信息熵

 

利用信息熵提取

熵这个术语表示随机变量不确定性的量度。具体表述如下: 一般地, 设X 是取有限个值的随机变量( 或者说X 是有限个离散事件的概率场) , X 取值x 的概率为P ( x ) , 则X 的熵定义为:



  

 

左右熵是指多字词表达的左边界的熵和右边界的熵。左右熵的公式如下:

 

 

 

 

具体计算方法是,以左熵为例,对一个串左边所有可能的词以及词频,计算信息熵,然后求和。

比如算法->工程师这个二阶短语,其左边可能有很多接续,比如“从事算法工程师”和“成为算法工程师”,当其接续多了,左熵也就会更高。这个二阶短语是一个二阶短语的可能性就更大一些。

但是这里存在一个问题,贾母默认分词与停用词效果不好,可能会将“abcd”分成“a,b,c,d”然后去掉“c”这种停用词,这样“a,b,d”则可能被作为一个三阶短语发现。在HanLP中因为只能发现二阶短语,所以可能因为去掉“a,b”中的一个导致无法发现二阶短语这种情况出现,但是这只存在着理论上的可能。

 

共性分析

 

共性 是指 文本中词语共同出现的情况。在hanlp中如果直接调用共性分析模块不仅可以获取词频统计,还可以一同给出互信息mi,左熵lr,右熵re。以下是pyhanlp中的使用。





  

 



  

 

短语提取

 

说明

 

内部采用MutualInformationEntropyPhraseExtractor实现,用户可以直接调用MutualInformationEntropyPhraseExtractor.extractPhrase(text, size)

算法详解

《基于互信息和左右信息熵的短语提取识别》

该功能的实现依赖于共性分析,详细内容可以查看《基于互信息和左右信息熵的短语提取识别

 

pyhan中的短语提取

 

# 短语提取

text = """算法工程师\n

        算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n

        1职位简介\n

        算法工程师是一个非常高端的职位;\n

        专业要求:计算机、电子、通信、数学等相关专业;\n

        学历要求:本科及其以上的学历,大多数是硕士学历及其以上;\n

        语言要求:英语要求是熟练,基本上能阅读国外专业书刊;\n

        必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。\n

        2研究方向\n

        视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师\n

        \n

        3目前国内外状况\n

        目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n

        在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n

        在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" +

        另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n

        算法工程师逐渐往人工智能方向发展。"""

                

                

phraseList = HanLP.extractPhrase(text, 10)

print(phraseList);

 

1|[算法工程师, 算法处理, 一维信息, 算法研究, 图像技术, 信号处理, 信息算法, 处理算法, 视频算法, 通信物理]

 

作者:Font Tian   

  • 大小: 57.6 KB
  • 大小: 21.4 KB
  • 大小: 15.2 KB
  • 大小: 23.8 KB
  • 大小: 49.7 KB
  • 大小: 149.2 KB
  • 大小: 186.9 KB
  • 大小: 109.1 KB
分享到:
评论

相关推荐

    多文档提取关键短语研究

    在多文档场景下,关键短语提取不仅需要考虑单个文档的内容,还需要考虑不同文档之间的关系,以便找到跨文档的共性主题。 "关键词"与"主题词"虽然在某些情况下可以互换使用,但通常来说,关键词更偏向于反映文档的...

    英汉存现句语序蕴含共性分析

    【英汉存现句语序蕴含共性分析】 存现句是语言中特有的一种句式,它描述了某物存在于某个地点的情况。在不同语言中,存现句的语序有着一定的规律和共性。本文主要探讨的是英汉存现句在语序上的共同特征,以此为基础...

    中小学人工智能教育实践共性问题分析.pdf

    "中小学人工智能教育实践共性问题分析" 中小学人工智能教育实践共性问题分析是当前教育领域中的热点话题。随着人工智能教育的普及和深入,中小学人工智能教育实践也面临着一系列的共性问题。 首先,人工智能教育的...

    基于HTML语义分析的网页正文提取.pdf

    因此,研究网页正文内容的共性特征(例如,段落、标题、文章的字数等)对于设计提取算法至关重要。 4. 视觉分段方法:通过模拟人类视觉感知的方法来识别网页中的信息块。利用视觉信息(如颜色、字体大小、位置等)...

    共性服务标准研究与探讨.pptx

    共性服务标准研究与探讨 基于共性服务标准研究与探讨.pptx文件,我们可以提炼出以下知识点: 一、服务与共性服务 * 服务的概念和分类 * 共性服务的定义和特点 * 共性服务在现代服务业中的应用 二、共性服务标准...

    基于共性与特性信息融合的遥感场景图像分类.zip

    综上所述,"基于共性与特性信息融合的遥感场景图像分类"是综合运用数据挖掘、人工智能和机器学习技术,通过对遥感图像的共性特征和特性特征进行有效提取和融合,实现高效准确的场景分类。这一领域的研究不断推动遥感...

    系统分析师 系统分析与设计技术

    还涉及了软件测试、软件维护、系统共性分析与设计、系统的安全性和保密性设计、文档编制、项目管理、软件质量管理、实时系统分析与设计、嵌入式系统分析与设计、信息化基础知识和信息系统基础知识等内容。...

    多元统计分析,因子分析

    多元统计分析课程中因子分析讲解,多元统计分析在众多课程门类中都有较大的应用,可用于机器学习,统计学习基础。因子分析是指研究从变量群中提取共性因子的统计技术。

    神东矿区自然发火特征共性分析及防控技术

    基于燃烧学理论和神东矿区实际开采条件,在分析神东矿区厚松散层薄基岩浅埋深近距离煤层群开采特点的基础上,提出神东矿区独特的采掘部署特点,给出神东矿区不利于自然发火防控的因素,分析了神东矿区自然发火的共性特征...

    顾及共性误差的南极半岛地区连续GPS站坐标时间序列分析.pdf

    共性误差的谱分析结果显示在u方向上存在9.4天、13.7天等短周期的信号,推测共性误差组成成分中可能含有与海潮相关的误差源。通过对南极半岛地区连续GPS站坐标时间序列的分析,可以提高GPS测量的精度和可靠性,为南极...

    互联网金融模式共性基础与服务实体经济效果差异分析.pdf

    大数据金融依赖于用户数据资源的积累和分析能力,通过数据挖掘和用户行为分析来发现潜在的金融需求,进而提供定制化的金融产品和服务。第三方支付平台作为连接用户和金融机构的桥梁,通过提供支付结算服务,促进了...

    计算机软考高级真题2019年上半年 系统分析师 综合知识 答案详解.docx

    ### 计算机软考高级真题2019年上半年 系统分析师 综合知识 答案详解 #### 知识点1: 面向对象分析中的类间关系 面向对象分析中,类之间的关系对于理解系统的架构非常重要。主要包括以下几种类型: 1. **关联关系**...

    FANUC系统共性故障分析及排除

    《FANUC系统共性故障分析及排除》 FANUC系统是全球广泛使用的数控系统,其稳定性与可靠性备受赞誉。然而,在实际运行过程中,由于各种原因,可能会出现一些共性故障,影响设备的正常工作。本文将针对FANUC系统常见...

    《从零进阶!数据分析的统计基础》-1.数据分析概述.pdf

    因子分析从众多变量中提取共性因素;方差分析则用于检验不同样本均值的显著差异。 数据挖掘方法主要包括聚类分析(如k-means)和分类分析(如决策树)。聚类分析将数据对象分组,而分类分析则通过建立模型对新数据...

    旺旺名单提取 旺旺名单提取

    3. 数据挖掘:数据分析人员可以利用这些数据进行大数据分析,发现消费者的共性特征,为店铺优化提供数据支持。 在使用旺旺名单提取工具时,用户通常需要输入关键词或设置特定条件,比如商品类别、地区等,工具会...

    AutoCAD文本提取

    同时,通过导出的文本数据,可以进行关键词搜索,查找特定信息,或者利用数据分析工具进行更深入的分析,比如统计出现频率最高的词汇,找出设计中的共性问题。 总的来说,AutoCAD文本提取是一个强大且实用的功能,...

Global site tag (gtag.js) - Google Analytics