`
carus
  • 浏览: 29451 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

HIT中文命名实体识别

 
阅读更多

概况介绍


命名实体识别任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在当今世界,随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息。于是信息抽取研究应运而生。而命名实体识别研究是信息抽取中的重要组成部分,同时它还能应用于自动问答、机器翻译以及信息检索等NLP领域,有助于它们的性能的提高。因此,研究命名实体识别具有重要的意义。

体系结构


系统包括两个部分,一是基于HMM的NE识别部分,二是规则修正部分。系统的结构图如图1所示。基于HMM的NE识别部分的输入是已分词且标注了词性的句子,它的识别结果又作为规则修正部分的输入,整个系统的输出是标注了NE标记的句子。

中文命名实体识别_体系结构

图1 HMM与自动规则提取相结合的中文NE识别系统

系统功能

1、较全面的覆盖了中文命名实体识别的类别,包括人名、地名、机构名、专有名词、时间、日期和数量短语共七类。
2、支持Windows和Linux操作系统。
3、提供Dll调用接口,可以方便的嵌入到其他的应用系统中。同时也可以独立运行得到识别结果。
4、系统操作方便,性能和效率较高。在普通PC机上利用10000句(1.32M)的语料进行测试,总的准确率为86.93%,运行效率为27.2K/s。

技术特点


目前系统主要采用统计与规则相结合的识别方法。统计以HMM为主,它能很好的捕捉自然语言中的统计规律,且简单、高效。规则的方法可以比较好的描述自然语言中的个性特征,两者的有效结合能使两种方法取长补短,使系统达到了较高的性能。

性能指标


在普通(1.32M)进行测试,语料库的规模为10000句。总的准确率为86.93%,运行效率为27.2K/s。

表1 NE评测结果


NE类型

NE总数

准确率(%)

召回率(%)

F值

人名

3104

93.86

92.53

93.19

地名

3725

86.69

85.83

86.25

机构名

1906

77.20

65.90

71.10

专有名词

437

77.14

80.32

78.70

时间

38

71.87

60.52

65.71

日期

1646

98.25

95.92

97.07

数量短语

6956

97.33

95.83

96.57


应用领域

1、信息抽取:如自动文摘,文本分类、聚类,事件抽取
2、机器翻译
3、自动问答
4、信息检索
分享到:
评论

相关推荐

    哈尔滨工业大学(HIT)中文信息处理实验一

    4. **命名实体识别**(NER):识别文本中具有特定意义的实体,如人名、地名、机构名等,通常采用条件随机场(CRF)、支持向量机(SVM)等机器学习算法。 5. **句法分析**:分析句子的结构,如依存句法分析,理解...

    哈尔滨工业大学(HIT)中文信息处理大作业

    在这个项目中,学生们将面临一系列与中文信息处理相关的挑战,包括但不限于文本预处理、语言模型构建、分词、词性标注、命名实体识别、情感分析以及机器翻译等关键任务。这些任务在现代自然语言处理(NLP)领域中...

    HIT-CIR_LTP_Corpora_Sample_v1_NLP_

    使用这样的语料库,研究人员和开发者可以训练LTP的模型,改进其在分词、词性标注、命名实体识别、依存句法分析等任务上的表现。同时,由于是样本版本,它可能包含相对较少的数据,旨在提供一个快速上手和测试的环境...

    基于知识图谱的猕猴桃种植知识问答系统+人工智能+知识图谱+预训练模型

    体关系联合抽取方法和基于TransR的知识补全方法,并构建了融合字词语义信息的猕猴桃种植实体识别模型,该模型以SoftLexicon为基础,通过MHA和Attention机制分 别调整词权重和词集重要度进一步提高命名实体识别精确率...

    cpp-LTP是哈工大开源的一套中文语言处理系统

    3. **命名实体识别**:系统能识别出文本中的专有名词,如人名、地名、机构名等,这对信息提取和问答系统非常有用。 4. **依存句法分析**:LTP能构建句子的依存树结构,揭示词汇之间的语法关系,帮助解析句子的结构...

    hanlp的data-for-1.7.5.zip

    这些预训练的模型和数据使得开发者无需从零开始训练,能够快速集成到自己的项目中,实现诸如分词、词性标注、命名实体识别、依存句法分析等多种功能。 为了确保下载的数据包未被篡改,HanLP官方提供了MD5校验值。MD...

    chinese-bert-wwm-ext.rar

    开发者可以利用PyTorch的API接口轻松加载模型,进行微调或直接应用到各种NLP任务上,如文本分类、命名实体识别、情感分析等。这极大地降低了研究人员和开发者的门槛,推动了中文NLP领域的快速发展。 在实际应用中,...

    自然语言处理研究的一些相关网站

    首先,"中文自然语言处理开放平台"(http://www.nlp.org.cn/)是一个为研究人员和开发者提供NLP工具和服务的平台,可能包括词性标注、命名实体识别、情感分析等功能,对于初学者和专业人士来说都是宝贵的资源。...

    条件随机场(史上最牛条件随机场教程)

    这种模型在序列标注任务中特别有效,比如在自然语言处理中的命名实体识别、词性标注等。 ##### 4.1 基本原理 条件随机场的主要特点是它的条件概率分布只依赖于整个观测序列,而不是单独的观测值。这意味着CRF 在...

    SQLServer2008查询性能优化 2/2

    2.4.4 Buffer Cache Hit Ratio 24 2.4.5 Page Life Expectancy 24 2.4.6 Checkpoint Pages/sec 24 2.4.7 Lazy writes/sec 24 2.4.8 Memory Grants Pending 25 2.4.9 Target Server Memory(KB)和Total Server ...

    SQLServer2008查询性能优化 1/2

    2.4.4 Buffer Cache Hit Ratio 24 2.4.5 Page Life Expectancy 24 2.4.6 Checkpoint Pages/sec 24 2.4.7 Lazy writes/sec 24 2.4.8 Memory Grants Pending 25 2.4.9 Target Server Memory(KB)和Total Server ...

Global site tag (gtag.js) - Google Analytics