前言 :最近在研究自然语言处理,搞的很浅,然后下了openNLP,实现了分词和分句,现在要做词性标注,结果openNLP参照的是这个Penn Treebank Tags,所以没办法要看懂词性标注的结果,只有先看懂这个Penn Treebank Tags了。
附注:我下的是英文的ME模型(Maxent model最大熵模型)实现的词性标注,openNLP还有感知模型(Perceptron model)实现。
本人语言水平实在不杂的,所以有些翻译完全是我自己的理解,可能在语法上不对。。
--------------------------------------------------------------------------------------------------------------------------------------
注意:这些信息来自于“Bracketing Guidelines for Treebank II Style Penn Treebank Project”这个项目-部分文档来自Penn Treebank(一个库)。
一、支架级别
1、从句级别
S - 简单的陈述句,例如,一个句子既不由从属连词引导或者wh-开头的单词,因此不存在主谓倒
置。
SBAR - 从属连词引导的从句
SBARQ - wh-开头的单词或者wh-开头的短语的直接我问句。间接问句和相关的从句应该是被标识的
是SBAR。
SINV - 倒装句。例如,主题跟随着紧张动词和情态动词。??
SQ -- 倒是/否问句,或者主从句是一个wh-开头的问句,跟随着wh-短语。
(最后两个,不理解,我的语法太烂了。)
2、短语级别
ADJP - 形容词短语
ADVP - 副词短语
CONJP - 连词短语
FRAG - fragment(片段)???
INTJ - 感叹词。大概相当于这部分的语义标签感叹词。
LST - 标记列表(??)。 包括周围的标点符号。
NAC - 不是句子中的成分,用来显示在一个名词短语前的*******************(完全不懂了,什么置于名词前的)
NP - 名词短语
NX - 用来复杂的名词短语前标识名词短语的头部。与N-bar级别类似但是用法不同。??
PP - 介词短语
PRN - 插入语
PRT - 小品词(与动词构成短语动词的副词或介词)。如果是单词类别的标签则被标注为RP。
QP - 量词短语(例如。复杂的度量/数量短语);在名词短语中运用。
RRC - 相对减少的从句。??
UCP - 协调不同的词组。
VP - 动词短语
WHADJP - wh-形容词短语。形容词短语包含一个wh-副词,例如how hot.
WHAVP - wh - 副词短语。引出一个从句通过一个名词短语。有可能没有或者词法包含了一个wh副
词,比如how 或者是why.(这句翻真垃圾)
WHNP - wh-名词短语。引出一个从句通过一个名词短语。有可能没有或者词法包含了一个wh副词,例
如 who, which book, whose daughter ,none of which ,or how many leopards.
WHPP- wh - 介词短语。介词短语包含了wh-名词短语(例如 of which 或者by whose authority)或者有
一个介词的间隔 或者 包含在WHNP中。
X- 不知道,不确定或者不在支架表中。
3、单词级别
CC - 并列连词
CD - 基数词
DT - 限定词(the ,some ,my)
EX - 存在词(there)
FW - 外来词
IN - 介词或者从属连词
JJ - 形容词
JJR - 形容词比较级
JJS - 形容词最高级
LS - 列表标记
MD - 情态动词
NN - 名词,单数
NNS -名词,复数
NNP - 专有名词,单数
NNPS - 专有名词,复数
PDT - 前置限定词
POS - 所有格结束
PRP - 人称代词
PRP$ - 所有格代名词(prolog版本 PRP-S)
RB - 副词
RBR - 副词的比较级
RBS - 副词的最高级
RP - 小品词(与动词构成短语动词的副词或介词)
SYM - 符号
TO - to
UH - 感叹词
VB - 动词原形
VBD - 动词过去式
VBG - 动名词或现在分词
VBN - 动词过去分词
VBP - 动词,非第三人称单数现在式
VBZ - 动词,第三人称单数现在式
WDT - wh-限定词
WP - wh - 代名词
WP$ - 所有格的wh -代名词
WRB - wh-副词
分享到:
相关推荐
积分已重新设置。 -------------------- 数据集已经预处理并含有整体10000个不同的词,包括结束句子的标记和用于罕见词语的特殊符号(\ )。数据量小,适用于RNN的训练。积分莫名增加了,无积分可以私信我。
《 Penn Treebank:深入理解与应用》 Penn Treebank,简称PTB,是自然语言处理领域的一个重要资源,由宾夕法尼亚大学于1990年代初创建,旨在为英语句法分析提供大规模的标注语料库。这个项目由Martha Palmer、...
PTB(Penn Tree Bank)是自然语言处理领域中一个经典的英文语料库,它由宾夕法尼亚大学创建,主要用于研究语法分析、句法结构、机器翻译等任务。这个小型语料库是从《华尔街日报》的文章中抽样出来的,因此其内容...
PTB(Penn Treebank Dataset)是由宾夕法尼亚大学创建的一个广泛使用的文本语料库,主要包含从《华尔街日报》中摘录的约100万个单词,用于语言学研究和自然语言处理(NLP)任务。这个数据集最初是为了句法分析而设计...
来源于 Tomas Mikolov 网站上的 PTB 数据集http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz。 该数据集已经预先处理过并且包含了全部的 10000 个不同的词语,其中包括语句结束标记符,以及标记稀有...
corenlp词性标注全部标签及含义excel版(自己整理了一下),详情见https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
可以直接放在~/.cache/huggingface/datasets/ptb_text_only 中直接使用
PTB文本数据集,全称为Penn Treebank(宾夕法尼亚树库)文本数据集,是自然语言处理(NLP)领域中一个经典的资源,尤其在语言模型的学习和研究中占有重要地位。这个数据集源自《华尔街日报》的新闻文本,经过精心...
宾州中文树库(Penn Chinese TreeBank)是一个广泛使用的中文语言资源库,它对中文分词的准则进行了详细的描述和规定。分词是自然语言处理(NLP)中的一个基本任务,特别是在中文处理中,因为中文是一种没有空格来...
其中,Penn Treebank(PTB)是一个广泛使用的英文语料库,它包含了丰富的句法结构信息,对于句法分析、词性标注、机器翻译等任务至关重要。`ptb-reader-rust` 是一个用 Rust 编程语言实现的库,专门用于解析和处理 ...
从 Penn Treebank 风格的语料库(例如华尔街日报)中学习未词法化的 PCFG。 需要 NLTK2 来读取树库和处理树。 ##用法 usage: PennToPCFG.py [-h] [-p PENN] [-g GRAMMAR] [-pe PENNEVAL] [-s SENTENCES] [-t ...
formatted_task1167_penn_treebank_coarse_pos_tagging.json
带有 Penn Treebank 链接的 Switchboard Dialog Act 语料库 概述 (SwDA) 扩展了带有轮次/话语级别的对话行为标签。 标签总结了有关相关转向的句法、语义和语用信息。 SwDA 项目于 1990 年代后期在加州大学博尔德...
HPSG神经解析器这是ACL 2019中的“在Penn Treebank上的头驱动短语结构语法解析”中描述的解析器的Python实现。内容要求Python 3.6或更高版本。 Cython 0.25.2或任何兼容版本。 0.4.0。 该代码尚未在PyTorch 1.0中...
在词性标注任务中,模型通过学习大量预先标记的语料库(如Penn Treebank)中的模式,来预测新句子中单词的词性。这种学习过程通常包括特征工程,即选择和构造有助于预测的特征,如单词的前缀、后缀、上下文词性等。 ...
PTB(Penn Treebank Dataset)文本数据集是一个在自然语言处理(NLP)领域非常重要的资源,主要用于训练和评估语言模型。这个数据集源于宾夕法尼亚大学的树库项目,其中包含了经过精心标注的英文文本,特别是新闻...
训练数据(来自 Penn Tree Bank)和测试脚本由哥伦比亚大学的 Michael Collins 教授提供。 原则 基本上,它首先从训练数据中学习,然后为 CKY 算法生成参数。 然后它运行 CKY 算法来恢复给定英语句子的解析。 怎么...
NLP中常用的PTB语料库,全名Penn Treebank。 Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。 语料来源为:1989年华尔街日报 语料规模:1M words,2499篇文章