`
lzj0470
  • 浏览: 1270841 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

中科院的分词系统使用的词性标注标准

    博客分类:
  • java
阅读更多
汉语文本词性标注标记集

Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。

a 形容词 取英语形容词adjective的第1个字母。

ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。

an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。

b 区别词 取汉字“别”的声母。

c 连词 取英语连词conjunction的第1个字母。

Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。

d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。

e 叹词 取英语叹词exclamation的第1个字母。

f 方位词 取汉字“方”

g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h 前接成分 取英语head的第1个字母。

i 成语 取英语成语idiom的第1个字母。

j 简称略语 取汉字“简”的声母。

k 后接成分
 
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。

m 数词 取英语numeral的第3个字母,n,u已有他用。

Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。

n 名词 取英语名词noun的第1个字母。

nr 人名 名词代码n和“人(ren)”的声母并在一起。

ns 地名 名词代码n和处所词代码s并在一起。

nt 机构团体 “团”的声母为t,名词代码n和t并在一起。

nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。

o 拟声词 取英语拟声词onomatopoeia的第1个字母。

p 介词 取英语介词prepositional的第1个字母。

q 量词 取英语quantit的第1个字母。

r 代词 取英语代词pronoun的第2个字母,因p已用于介词。

s 处所词 取英语space的第1个字母。

Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。

t 时间词 取英语time的第1个字母。

u 助词 取英语助词auxiliary

Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。

v 动词 取英语动词verb的第一个字母。

vd 副动词 直接作状语的动词。动词和副词的代码并在一起。

vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。

w 标点符号
 
x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。

y 语气词 取汉字“语”的声母。

z 状态词 取汉字“状”的声母的前一个字母。
-------------------------------------------------------------------------------
a:        形容词
b:        区别词
c:        连词
d:        副词
e:        叹词
g:        语素字
h:        前接成分
i:        习用语
j:        简称
k:        后接成分
m:        数词
n:        普通名词
nd:        方位名词
nh:        人名
ni:        机构名
nl:        处所名词
ns:        地名
nt:        时间词
nz:        其他专名
o:        拟声词
p:        介词
q:        量词
r:        代词
u:        助词
v:        动词
wp:        标点符号
ws:        字符串
x:        非语素字
更加详细内容:http://ictclas.org/ictclas_docs_003.html
分享到:
评论

相关推荐

    计算所汉语词法分析系统ICTCLAS

    为此,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;...

    中科院中文分词系统及各种调用示例

    这个分词系统需要注册才可使用,不建议大家下载,因为事先不清楚.抱歉!需要的话,可以下载我上传的其它版本. 计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态...开发者在分词和词性标注的基础上继续上层开发。

    中科院分词系统

    基于多层隐马尔科夫模型的汉语词法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System),它包括了中文分词,词性标注和未登录词识别等。

    中科院分词系统_易语言调用模块

    词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。本模块是方便易语言码农直接调用中科院分词系统,本文件只含模块内容,其他分词系统需到官网下载

    分词软件中科院编写

    分词软件,词性标注,可用于文本挖掘,和情感分析领域

    中科院分词软件2013版基础包

    这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,2013基础版的

    ICTCLAS2009版中文分词系统

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    中科院FreeICTCLAS中文分词工具C++源码

    词性标注;未登录词识别。 // 分词正确率高达97.58%(973专家评测结果), // 未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%; // 处理速度为31.5Kbytes/s。 //著作权: Copyright?2002-2005中科院...

    中科院ICTCLAS分词源代码

    这是中科院的ICTCLAS的中文分词算法的源代码,可以实现中文分词,词性标注等功能。绝对好用!

    易语言中科院分词模块2014

    NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。

    ICTPOS3.0汉语词性标记集

    计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集: 1. 北大《人民日报》...

    中文词语分析一体化系统

    通过这种方式,系统能够更准确地处理歧义和未登录词,提高整体的分词和词性标注的准确性。 总的来说,中文词语分析一体化系统的核心在于如何有效地结合规则和统计方法,建立一个能够适应各种复杂情况的模型,既能...

    ICTCLAS30汉语分词

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    中国科学院大学自然语言处理期末考试部分答案.pdf

    准确率LP计算为正确的分词个数除以系统分词总数,召回率LR是正确的分词个数除以标准答案的分词总数。F1分数是准确率和召回率的调和平均数,用于综合评估分词系统的效果。 词性标注则是为每个分词赋予一个词性,如...

    30万 中文分词词库

    自己做毕设整理的分词词库,使用中科院的标注集合北大标注集,也就是两种标注混合用的。每个词一个词性,也有词频。由于使用多个词典整合的,词频不是特别准。但是能满足一般的需求。 容量为29.8w. 包含了三级地名、...

    中科院计算所ICTCLAS

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    汉语文本聚类

    程序利用中科院的软件,分词、词性标注以后聚类,利用tf-idf值求出30个特征性,生成特征向量,可放在weka中聚类!

    切词软件(中科院)

    这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,未登陆词识别等功能,正确率相当高,很有用哦

    java笔试题算法-NLP_summary:自然语言处理

    主要功能包括分词、词性标注、命名实体识别、用户词典功能,新词发现与关键词提取。 可以可视化界面操作和API方式调用。 哈工大LTP(推荐) 语言技术平台(LTP)是哈工大社会计算与信息检索研究中心开发的一整套中文...

    张华平_博士毕业论文_中科院计算所

    研究中的浅层语言分析技术包括对英文的断句、词汇切分、词性标注以及词形还原等处理步骤,而对于中文则结合了汉语分词、词性标注、切分排歧以及未登录词识别技术,并提出了基于层次隐马模型的理论框架。这些方法不仅...

Global site tag (gtag.js) - Google Analytics