ICTCLAS 汉语词性标注集
汉语文本词性标注标记集
Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。
a 形容词 取英语形容词adjective的第1个字母。
ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词conjunction的第1个字母。
Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。
d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。
e 叹词 取英语叹词exclamation的第1个字母。
f 方位词 取汉字“方”
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h 前接成分 取英语head的第1个字母。
i 成语 取英语成语idiom的第1个字母。
j 简称略语 取汉字“简”的声母。
k 后接成分
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m 数词 取英语numeral的第3个字母,n,u已有他用。
Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。
n 名词 取英语名词noun的第1个字母。
nr 人名 名词代码n和“人(ren)”的声母并在一起。
ns 地名 名词代码n和处所词代码s并在一起。
nt 机构团体 “团”的声母为t,名词代码n和t并在一起。
nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。
o 拟声词 取英语拟声词onomatopoeia的第1个字母。
p 介词 取英语介词prepositional的第1个字母。
q 量词 取英语quantit的第1个字母。
r 代词 取英语代词pronoun的第2个字母,因p已用于介词。
s 处所词 取英语space的第1个字母。
Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。
t 时间词 取英语time的第1个字母。
u 助词 取英语助词auxiliary
Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。
v 动词 取英语动词verb的第一个字母。
vd 副动词 直接作状语的动词。动词和副词的代码并在一起。
vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。
w 标点符号
x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。
y 语气词 取汉字“语”的声母。
z 状态词 取汉字“状”的声母的前一个字母。
-------------------------------------------------------------------------------
a: 形容词
b: 区别词
c: 连词
d: 副词
e: 叹词
g: 语素字
h: 前接成分
i: 习用语
j: 简称
k: 后接成分
m: 数词
n: 普通名词
nd: 方位名词
nh: 人名
ni: 机构名
nl: 处所名词
ns: 地名
nt: 时间词
nz: 其他专名
o: 拟声词
p: 介词
q: 量词
r: 代词
u: 助词
v: 动词
wp: 标点符号
ws: 字符串
x: 非语素字
分享到:
相关推荐
COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。...
文章目录《PFR人民日报标注语料库》词性编码表《现代汉语语料库加工规范——词语切分与词性标注》词性标记计算所 ICTCLAS 3.0汉语词性标记集形容词(1个一类,4个二类)区别词(1个一类,2个二类)连词(1个一类,1个二类...
词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到...
ICTCLAS10使用了深度学习技术,如神经网络模型,提高词性标注的准确性,适应现代汉语的复杂性和变化性。 3. **新词发现**:随着社会的发展,新的词汇不断涌现。ICTCLAS10具备新词识别能力,能有效地捕捉和标注未在...
多种标注级的选择,系统可供选择的标注级有:计算所一级标注级,计算所二级标注集,北大一级标注集,北大二级标注集。 关键词提取 自动抽取出能很好地代表文档主题的若干个词或短语。关键词抽取技术广泛应用于信息...
汉语词法分析系统ICTCLAS,主要功能包括中文分词;词性标注;命名实体识别;新词识别;用户词典功能,同时支持GBK编码、UTF8编码、BIG5编码。包括java,c,c#,linux 32位等各种接口
简介: 应各位ICTCLAS用户的要求,张华平博士提前发布ICTCLAS2013 版本,为了与以前工作进行大的...词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;
2. **准确性**:通过大量语料库训练,ICTCLAS2010具备较高的分词和词性标注准确性,满足科研和实际应用的需求。 3. **适应性**:系统能够适应各种类型的文本,包括新闻、网络论坛、社交媒体等,对新词和网络用语有较...
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis ...词性标注;命名实体识别;新词识别;同时支持用户词典。
提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集 成到一个完整的理论框架中1在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普 ...
大名鼎鼎的中科分词最新共享版---汉语词法分析系统ICTCLAS...词性标注;命名实体识别;新词识别;用户词典功能,同时支持GBK编码、UTF8编码、BIG5编码。该分词软件是目前分词速度最快,准确性最高的中文文本分词软件。
计算所汉语词法分析系统ICTCLAS(Institute ...词性标注;未登录词识别。 // 分词正确率高达97.58%(973专家评测结果), // 未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%; // 处理速度为31.5Kbytes/s。
汉语词法分析是自然语言处理中的基础任务,旨在将汉字序列分解成有意义的词汇单元,并进行词性标注,这对于理解和处理汉语文本至关重要。本文介绍了一种使用层次隐马模型(Hierarchical Hidden Markov Model, HHMM)...
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis ...词性标注;命名实体识别;新词识别;同时支持用户词典。
关键词中的“汉语词法分析”、“分词”、“词性标注”、“未登录词识别”以及“层叠隐马模型”和“ICTCLAS”都是本文所关注和使用的术语或系统名称。这些关键词概述了文章的研究主题和研究对象,也反映了汉语自然...
ICTCLAS是专门针对中文词性标注的工具,适用于汉语处理。 句法分析是确定句子结构的过程,包括短语结构分析和依存句法分析。Stanford Parser不仅提供词性标注,还提供了强大的句法分析功能。Berkeley Parser和...
抱歉!需要的话,可以下载我上传的其它版本. 计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll,COM组件和相应的概率词典,开发者可以完全忽略...开发者在分词和词性标注的基础上继续上层开发。
词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文...
计算所汉语词法分析系统ICTCLAS.分词正确率高达97.58%(973专家组评测),未登录词识别...ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。