`
turingfellow
  • 浏览: 135186 次
  • 性别: Icon_minigender_1
  • 来自: 福建省莆田市
社区版块
存档分类
最新评论

standford vs opennlp

阅读更多
  重新训练的模型主要针对短角色,即词串数不大于3的角色,这是因为考虑到在实际环境下一般人难以输入长句,一般口语化的句子其实都比较短。手工测试训练后的效果至少不比之前的模型差。然而,使用stanford parser为基础的语义分析有一个致命的缺点:分析严重受制于stanford parser的结果,而stanford parser是将分词、词性标注都集成在一起,难以使用第三方的分词器和词性标注器,从而导致parser结果不可控。因而我的想法是放弃使用stanford parser,而采用shallow parser。shallow parser如果是在gold pos前提下的准确率要高于stanford parser。shallow parser的主要问题是必须在之前先进行分词与词性标注(POS)。
   目前我主要关注两个POS tagger,一是stanford tagger(使用ME模型);二是opennlp(使用ME模型)。stanford tagger是一个比较大而全的tagger,支持标注、训练等任务,而且不经任何加工即可直接使用(模型已经被训练获得),因而是一个富项目。opennlp的tagger代码则比较简单,使用前必须先经过加工训练。这两个项目的缺点在于缺乏必要的文档,stanford tagger难以明白用到哪些特征,而opennlp难以一下子入手。
   另外,这个工作在当前的项目中到底有多大的价值本身也难以评估,就怕花了时间,效果却不甚明显。

分享到:
评论

相关推荐

    基于Apache OpenNLP框架构建的语言模型,用于识别文本中的词汇、短语和实体,以及进行句法分析和生成文本的联想

    Apache OpenNLP 是一个强大的自然语言处理库,主要用于处理人类语言数据,提供多种文本分析功能。在这个场景中,我们使用OpenNLP来构建一个Java语言模型,该模型能够识别文本中的词汇、短语和实体,并进行句法分析,...

    NLPProject:基于OpenNLP和StanfordNLP的文本标记器

    NLP项目基于OpenNLP和StanfordNLP的文本标记器此应用程序可以读取您的字符串数据(最好是一列短语),并使用POS-tagger / Coreference解析器对其进行处理。 在处理结束时,该程序将创建一个具有解析结果的相应“ ....

    openNLP:基于Java的自然语言处理培训,保存模型,加载模型和推断的快​​速入门指南

    openNLP 这是一个非常简单易用的基于Java的NLP指南,用于快速开始创建NLP模型并将其用于实体提取。 #NLP模型的创建和使用: 以下步骤用于openNLP模型创建,使用简单训练集训练模型,然后使用来自实体提取的相同训练...

    毕业设计,基于SpringBoot+NLP+Bootstrap+MySql开发的校园信息交流系统,内含Java完整源代码,数据库

    毕业设计,基于SpringBoot+NLP+Bootstrap+MySql开发的校园信息交流系统,内含Java完整源代码,数据库 本设计主要工作包括以下几点: 设计并完成了基于B/S架构模式的高校交流系统。该系统使用SpringBoot框架技术...

    Stanford_Parser中文句法分析器使用教程

    Stanford Parser 中文句法分析器使用教程 Stanford Parser 是一种功能强大的中文句法分析器,它可以对中文句子进行依存关系分析,生成句法树和词性标注。下面是使用 Stanford Parser 进行中文句法分析的教程。 一...

    stanford-corenlp-full-2015-12-09.zip

    《斯坦福大学NLP工具包:stanford-corenlp-full-2015-12-09.zip深度解析》 斯坦福大学的NLP(自然语言处理)工具包是学术界和工业界广泛使用的资源,它包含了丰富的功能,能够满足多样的自然语言处理任务需求。...

    Stanford-OpenIE-Python:Stanford开放信息提取变得简单!

    Stanford OpenIE的Python3包装器 开放信息提取(open IE)指的是从纯文本中提取结构化关系三元组,因此不需要预先指定这些关系的模式。 例如,巴拉克·奥巴马(Barack Obama)出生于夏威夷会创建一个三元组(Barack ...

    英文文本分词jar包与代码

    更强大的库如Stanford NLP、OpenNLP等,提供了更全面的NLP功能,包括分词、词性标注、命名实体识别等。 2. **Stanford NLP** Stanford NLP是一个强大的NLP库,它包含了丰富的分词模型和算法。使用Stanford NLP进行...

    nlp-sandbox:自然语言处理沙箱

    使用CLiPS-Pattern,NLTK,OpenNLP和Stanford CoreNLP在Java和Python中玩NLP。 Java和Python代码在src / main下。 以下是软件包的说明。 去做: 标准化输出标签(NAME,DATE,ORDINAL等) 比较每个实施的F1分数 ...

    stanford-openie-python:斯坦福大学公开信息提取非常简单!

    如本文所述,CoreNLP是开放式IE系统的Java实现: 可以在这里找到更多信息: : OpenIE库仅以英语提供: ://stanfordnlp.github.io/CoreNLP/human-languages.html安装您需要安装python3和Java。 CoreNLP库使用Java。 ...

    NLP.zip_NLP_nlp处理docx_python nlp_自然语言处理

    在Java领域,NLP的典型库有Stanford CoreNLP、Apache OpenNLP和LingPipe等。Stanford CoreNLP提供了一整套的NLP服务,包括分词、词干化、命名实体识别、依存关系分析等。Apache OpenNLP和LingPipe也有类似的工具,但...

    java提取文章关键字

    - Apache OpenNLP:Apache提供的自然语言处理工具包,包含分词、命名实体识别和关键词提取等功能。 - Stanford CoreNLP:斯坦福大学开发的强大的自然语言处理库,提供了丰富的文本分析工具,包括关键词提取。 - ...

    Java 中文文本摘要生成

    在实际应用中,Java开发者可以参考开源的Java库,如`opennlp`或`stanford-corenlp`,它们提供了更丰富的自然语言处理功能,可以与jieba分词库结合使用,提高摘要生成的效果。此外,还可以考虑使用深度学习模型,如...

    NLP.rar_NLP_NLP java_词切分

    可能使用了如Apache OpenNLP、Stanford NLP或ChineseNLP等开源NLP工具包,这些库提供了预训练的模型和函数,可以方便地进行中文词切分。 "**词切分**",在中文NLP中通常称为分词。由于中文没有明显的空格分隔,所以...

    浅谈Python NLP入门教程

    2. **Apache OpenNLP**:基于Java的开源框架,提供了一系列机器学习模型用于解决NLP任务。 3. **Stanford NLP Suite**:由斯坦福大学开发的一套工具集,提供了多种语言的支持。 4. **GATE NLP Library**:一款开源的...

    Python那些事——NLP入门级教程,值得你拥有!

    此外,文章还提到了一些著名的自然语言处理库,如NLTK、Apache OpenNLP、Stanford NLP Suite和GATE NLP Library,其中NLTK以其易用性和强大的社区支持脱颖而出。 在介绍NLTK库的过程中,文章指出它是一个用Python...

    CLAVIN-NERD:斯坦福大学NLP实施CLAVIN LocationTagger

    将CLAVIN与Stanford NER(即CLAVIN-NERD发行版)一起使用,比使用默认的Apache OpenNLP NameFinder实体提取器获得的准确性要高得多。 我们建议使用CLAVIN书呆子或Novetta的了OpenNLP。 Stanford NER不包括在标准的...

    Tock,开源对话式AI工具包_Kotlin_代码_下载

    自然语言处理开源堆栈,兼容 OpenNLP、Stanford、Rasa 等 Tock Studio用户界面,用于构建故事和分析 Kotlin、Nodejs、Python 和 REST API 的对话式 DSL 多种文本/语音通道的内置连接器:Messenger、WhatsApp、Google...

    python自然语言处理(NLP)入门.pdf

    NLP领域的其他开源库还包括Apache OpenNLP、Stanford NLP Suite和GATE NLP library,它们各自都有独特的特性和优势。然而,对于初学者和小型项目,NLTK由于其易用性、丰富的文档和庞大的社区支持,通常是首选的...

    neo4j-nlp:Neo4j中的NLP功能

    它有两个版本,社区(开源)和企业版,具有以下NLP功能: 特征矩阵 社区版 企业版 文字信息提取 :heavy_check_mark: :heavy_check_mark: 同一数据库中的多语言 :heavy_check_mark: 自定义...

Global site tag (gtag.js) - Google Analytics