二、功能标签
1、形式/功能差异
-ADV(副词作用的) - 标记成分不同于ADVP 或者是PP 当它当副词使用时。但是,成分修改一个ADVP通常没有-ADV。如果一个更加特别的标签(例如-TMP)可用,那么它将会单独使用,-ADV是暗含的意思,见(状语)这一节。
- NOM(名词性的)标记**和动名词当它们是以相同的方式使用的时候。
2、语法作用
-DTV (与格(名词、代词或形容词用作间接宾语时的一种形式)
- LGS (逻辑主语)
-PRD (谓语, 述语 (句子成分,对主语加以陈述,如 John went home 中的 went home))
-PUT 标识方位的补足语put
-SBJ (表面主题)
-TPC (“主题化”)标识在陈述句主题之前出现的元素,但是只有两种情况:
(1)如果前一个元素在位置上是与一个 *T* 相邻。??
(2) 如果前面的元素是左置。?
-VOC (呼格;呼格词;呼语)
3、状语
状语常常是VP的附属结构。
-BNF (受益的)标识行动的受益人(与名词性短语和介词性短语相连)
-DIR (有指向的)标识回答“from where?”和“to where?”的状语。
-EXT(程度)标志着描述一个活动的空间范围副词短语。
-LOC ((名词、代词或形容词)表示位置的 )标识状语,指示事件的地点
-MNR (方式,方法)标识方式的状语,包括仪器词组?
-PRP(目的或者原因) 标识目的或者原因从句或者介词短语
-TMP(时间)标识时间或者回答这类问题when,how often,how long.
4、其他
-CLR()
-CLF()
-HLN(摘要headline)
-TTL(标题title)
分享到:
相关推荐
《 Penn Treebank:深入理解与应用》 Penn Treebank,简称PTB,是自然语言处理领域的一个重要资源,由宾夕法尼亚大学于1990年代初创建,旨在为英语句法分析提供大规模的标注语料库。这个项目由Martha Palmer、...
积分已重新设置。 -------------------- 数据集已经预处理并含有整体10000个不同的词,包括结束句子的标记和用于罕见词语的特殊符号(\ )。数据量小,适用于RNN的训练。积分莫名增加了,无积分可以私信我。
PTB(Penn Treebank Dataset)是由宾夕法尼亚大学创建的一个广泛使用的文本语料库,主要包含从《华尔街日报》中摘录的约100万个单词,用于语言学研究和自然语言处理(NLP)任务。这个数据集最初是为了句法分析而设计...
PTB(Penn Tree Bank)是自然语言处理领域中一个经典的英文语料库,它由宾夕法尼亚大学创建,主要用于研究语法分析、句法结构、机器翻译等任务。这个小型语料库是从《华尔街日报》的文章中抽样出来的,因此其内容...
来源于 Tomas Mikolov 网站上的 PTB 数据集http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz。 该数据集已经预先处理过并且包含了全部的 10000 个不同的词语,其中包括语句结束标记符,以及标记稀有...
corenlp词性标注全部标签及含义excel版(自己整理了一下),详情见https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
可以直接放在~/.cache/huggingface/datasets/ptb_text_only 中直接使用
宾州中文树库(Penn Chinese TreeBank)是一个广泛使用的中文语言资源库,它对中文分词的准则进行了详细的描述和规定。分词是自然语言处理(NLP)中的一个基本任务,特别是在中文处理中,因为中文是一种没有空格来...
其中,Penn Treebank(PTB)是一个广泛使用的英文语料库,它包含了丰富的句法结构信息,对于句法分析、词性标注、机器翻译等任务至关重要。`ptb-reader-rust` 是一个用 Rust 编程语言实现的库,专门用于解析和处理 ...
从 Penn Treebank 风格的语料库(例如华尔街日报)中学习未词法化的 PCFG。 需要 NLTK2 来读取树库和处理树。 ##用法 usage: PennToPCFG.py [-h] [-p PENN] [-g GRAMMAR] [-pe PENNEVAL] [-s SENTENCES] [-t ...
PTB文本数据集,全称为Penn Treebank(宾夕法尼亚树库)文本数据集,是自然语言处理(NLP)领域中一个经典的资源,尤其在语言模型的学习和研究中占有重要地位。这个数据集源自《华尔街日报》的新闻文本,经过精心...
带有 Penn Treebank 链接的 Switchboard Dialog Act 语料库 概述 (SwDA) 扩展了带有轮次/话语级别的对话行为标签。 标签总结了有关相关转向的句法、语义和语用信息。 SwDA 项目于 1990 年代后期在加州大学博尔德...
在词性标注任务中,模型通过学习大量预先标记的语料库(如Penn Treebank)中的模式,来预测新句子中单词的词性。这种学习过程通常包括特征工程,即选择和构造有助于预测的特征,如单词的前缀、后缀、上下文词性等。 ...
HPSG神经解析器这是ACL 2019中的“在Penn Treebank上的头驱动短语结构语法解析”中描述的解析器的Python实现。内容要求Python 3.6或更高版本。 Cython 0.25.2或任何兼容版本。 0.4.0。 该代码尚未在PyTorch 1.0中...
PTB(Penn Treebank Dataset)文本数据集是一个在自然语言处理(NLP)领域非常重要的资源,主要用于训练和评估语言模型。这个数据集源于宾夕法尼亚大学的树库项目,其中包含了经过精心标注的英文文本,特别是新闻...
训练数据(来自 Penn Tree Bank)和测试脚本由哥伦比亚大学的 Michael Collins 教授提供。 原则 基本上,它首先从训练数据中学习,然后为 CKY 算法生成参数。 然后它运行 CKY 算法来恢复给定英语句子的解析。 怎么...
NLP中常用的PTB语料库,全名Penn Treebank。 Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。 语料来源为:1989年华尔街日报 语料规模:1M words,2499篇文章
The Chinese Penn Treebank Tag Set 中文宾州树库标记及其含义 The Chinese Penn Treebank Tag Set 是一个中文语料库标记系统,由宾夕法尼亚大学开发,用于中文自然语言处理和计算语言学研究。该系统定义了 33 个...