`
eric_weitm
  • 浏览: 244331 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

自然语言处理某个pipeline

 
阅读更多

1、数据源:包括文本、pdf、数据库等不同来源

2、使用到的库:jieba gensim sklearn keras 

3、可以实现的服务:找出相关和相近词(以分词为准)、比较2个分词的相似度、和哪些相关同时和别的不相关(语义上的模糊查找)

比如:中国银行:

[["中国工商银行", 0.7910350561141968], ["601988", 0.7748256921768188], ["工商银行", 0.7616539001464844], ["建设银行", 0.7573339939117432], ["中国建设银行", 0.7504717707633972], ["中行", 0.7469172477722168], ["中国农业银行", 0.7167254686355591], ["交通银行", 0.7115263938903809], ["农业银行", 0.7070150375366211], ["中信银行", 0.6993384957313538], ["建行", 0.6886808276176453], ["工行", 0.684762716293335], ["招商银行", 0.6723880767822266], ["中国民生银行", 0.6720935106277466], ["兴业银行", 0.6705615520477295], ["03988", 0.6682215332984924], ["浦发银行", 0.6620436310768127], ["光大银行", 0.6612452268600464], ["交行", 0.6425610780715942], ["601939", 0.6396690607070923], ["601398", 0.6362080574035645], ["汇丰银行", 0.6354925036430359], ["中国光大银行", 0.6283385157585144], ["华夏银行", 0.6261048316955566], ["090601", 0.6191191077232361], ["农行", 0.6165546774864197], ["南京银行", 0.6162608861923218], ["谷裕", 0.6026109457015991], ["民生银行", 0.6018795371055603], ["B02776", 0.6003248691558838], ["北京银行", 0.5989225506782532], ["00939", 0.5841124057769775], ["601288", 0.5798826217651367], ["法国兴业银行", 0.5750421285629272], ["600036", 0.5725768804550171], ["中银香港", 0.5725655555725098], ["渣打银行", 0.5723541975021362], ["上海银行", 0.5716006755828857], ["中资银行", 0.5714462399482727], ["史晨昱", 0.5713250637054443], ["01398", 0.5696423053741455], ["01288", 0.5673946738243103], ["国家开发银行", 0.5673025846481323], ["该行", 0.5642573237419128], ["部万钊", 0.5616151094436646], ["601998", 0.5594305992126465], ["601328", 0.5585275292396545], ["中信实业银行", 0.5555926561355591], ["花旗银行", 0.5535871386528015], ["宁波银行", 0.5529069900512695]]

中国:

[["世界", 0.7685298919677734], ["全球", 0.7626694440841675], ["世界范围内", 0.7018718123435974], ["我国", 0.6887967586517334], ["全世界", 0.681572437286377], ["美国", 0.6747004985809326], ["亚洲", 0.6721218824386597], ["中国政府", 0.6407063007354736], ["国内", 0.6364794969558716], ["印度", 0.6236740946769714], ["国际", 0.6172101497650146], ["大国", 0.6167921423912048], ["亚洲各国", 0.6133526563644409], ["亚太地区", 0.610878586769104], ["全球范围", 0.6104856729507446], ["在世界上", 0.6089214086532593], ["东亚地区", 0.6027672290802002], ["日本", 0.601786196231842], ["当今世界", 0.6002479791641235], ["亚洲地区", 0.5914613604545593], ["全球性", 0.5876830220222473], ["全球化", 0.5855609178543091], ["非洲大陆", 0.5852369070053101], ["世界市场", 0.5849867463111877], ["欧洲", 0.5787924528121948], ["第三世界", 0.5771710872650146], ["全球一体化", 0.5766278505325317], ["西方", 0.5766173601150513], ["欧美国家", 0.5756310224533081], ["拉美", 0.5752301216125488], ["经济大国", 0.5745469331741333], ["第一世界", 0.5730843544006348], ["东亚国家", 0.5727769136428833], ["强国", 0.5700076222419739], ["工业界", 0.5689312219619751], ["韩国", 0.5672852396965027], ["各国", 0.5603423118591309], ["新兴国家", 0.5577350854873657], ["发达国家", 0.5569929480552673], ["英国", 0.5562434196472168], ["德国", 0.5535132884979248], ["当今", 0.5534329414367676], ["拉美地区", 0.5512816309928894], ["东亚各国", 0.5505844354629517], ["中国崛起", 0.5435972213745117], ["拉美国家", 0.5431581735610962], ["西半球", 0.5429360866546631], ["西方国家", 0.5408912897109985], ["本国", 0.5392733216285706], ["俄罗斯", 0.5382996797561646]]

 

 

万科:

[["金地", 0.8261025547981262], ["九龙仓", 0.8132781386375427], ["绿城", 0.7946393489837646], ["恒大", 0.7812688946723938], ["碧桂园", 0.7795591354370117], ["郁亮", 0.7790281772613525], ["远洋地产", 0.7744697332382202], ["融创", 0.7735781669616699], ["恒大地产", 0.7618383169174194], ["融创中国", 0.753994345664978], ["招商地产", 0.7349810600280762], ["合生创展", 0.7338892221450806], ["华润置地", 0.7292978167533875], ["龙湖", 0.7278294563293457], ["旭辉", 0.7256796956062317], ["龙湖地产", 0.7223220467567444], ["王石", 0.7217631936073303], ["宝能", 0.7196142673492432], ["孙宏斌", 0.7192676067352295], ["绿城中国", 0.7135359048843384], ["越秀地产", 0.7109189629554749], ["保利地产", 0.7031007409095764], ["世茂", 0.7004261016845703], ["中国金茂", 0.6861996650695801], ["合景泰富", 0.6830298900604248], ["雅居乐", 0.6811322569847107], ["世茂房地产", 0.6798348426818848], ["华远地产", 0.6793832778930664], ["万科A", 0.677139937877655], ["绿地", 0.6746823787689209], ["富力", 0.6702776551246643], ["宝龙地产", 0.662824809551239], ["富力地产", 0.660904049873352], ["宝能系", 0.6577337384223938], ["金科", 0.6565895676612854], ["阳光城", 0.6557801961898804], ["方兴", 0.654536247253418], ["协信", 0.6533593535423279], ["金地集团", 0.6524677276611328], ["龙光地产", 0.644176721572876], ["九龙仓集团", 0.6433624029159546], ["中国恒大", 0.6420278549194336], ["华侨城", 0.6391571760177612], ["许家印", 0.6391341686248779], ["万通地产", 0.6383571028709412], ["华远", 0.6379672288894653], ["宋卫平", 0.6350336670875549], ["龙头房企", 0.6337549090385437], ["东原", 0.6333705186843872], ["新鸿基地产", 0.6329449415206909]]

 

4、基本步骤:

数据源的load->gensim->classifier(传统基于词频的/深度学习的 keras)

5、model结果的使用 gensim.models.keyedvectors.KeyedVectors

wmdistance(document1, document2) # 输入是2个doc的单词集合

 

分享到:
评论

相关推荐

    自然语言处理(NLP)和计算机视觉技术应用资源指南

    ### 自然语言处理(NLP)与计算机视觉技术应用资源指南 #### 自然语言处理(NLP) **1. Transformer架构** Transformer是一种革命性的深度学习架构,它改变了自然语言处理领域,尤其是对于处理序列数据非常有效。...

    Python 自然语言处理笔记.md

    ### Python 自然语言处理知识点详解 #### 一、自然语言处理概述 - **定义与重要性**: - 自然语言处理(Natural Language Processing,简称NLP)是人工智能的一个核心分支,专注于使计算机能够理解、解释和生成...

    Transformer:自然语言处理的变革者

    ### Transformer:自然语言处理的变革者 在自然语言处理(NLP)的广阔天地中,Transformer 模型犹如一颗冉冉升起的新星,以其独特的自注意力机制和并行处理能力,为各种语言任务带来了革命性的变革。本文将深入探讨...

    tomcat engine,host,context的管道处理——pipeline

    在Tomcat中,Pipeline是一个处理链的概念,它定义了请求和响应如何在各个组件之间传递。每个Engine、Host和Context都拥有自己的Pipeline,其中包含了Valve(阀门)组件。Valve就像流水线上的工作站,每个Valve可以...

    Python-StanfordNLP适用于多种人类语言的斯坦福NLP官方Python库

    Python中的StanfordNLP库是斯坦福大学自然语言处理组(Stanford NLP Group)官方推出的Python接口,用于处理多种人类语言的自然语言处理任务。这个库提供了强大的功能,包括词法分析(Tokenization)、词性标注...

    pipeline ADC的设计指南

    Pipeline ADC的应用非常广泛,包括音频处理、图像处理、医疗电子等领域。 Pipeline ADC的优势在于其高精度、低power consumption和小面积占用,使其成为许多应用领域的首选。 Pipeline ADC是模数转换器架构中的一...

    gltf-pipeline-3.0.2.zip

    gltf-pipeline 是一个强大的工具集,主要用于处理和优化基于 glTF(GL Transmission Format)的三维模型数据。glTF 是一种开放标准的三维模型格式,旨在高效、轻量地传输和加载三维内容,广泛应用于游戏开发、虚拟...

    Android-HTML::Pipeline-HTML处理过滤器和工具类

    在Android开发中,HTML::Pipeline是一个用于处理和过滤HTML内容的工具类库。这个库的主要目的是将HTML源码转换为更便于操作的数据结构,比如Markdown或者其他格式,以便于在应用程序中进行显示、存储或者进一步处理...

    Jenkins高级篇之Pipeline技巧篇-3-JSON文件处理多个参数进一步优化.rar

    本资料聚焦于Pipeline中的一个关键技巧:处理JSON文件来管理多个参数,并对其进行进一步优化。JSON(JavaScript Object Notation)文件因其轻量级、易读性及广泛支持的特性,常用于数据交换和配置管理。以下将详细...

    jenkins 构建项目之 pipeline基础教程

    2. 创建 Pipeline脚本: Pipeline 脚本由 Groovy 语言实现。Pipeline 支持两种语法:Declarative(声明式脚本)和 Scripted Pipeline(脚本式语法) 3. 声明式语法: pipeline { ... },其中包括 agent、stages、...

    Netty测试代码,尤其对于Pipeline顺序

    在测试代码中,我们经常需要确保Pipeline中的处理器顺序正确无误,因为错误的顺序可能导致数据处理不正确或者事件无法被正确处理。例如,如果解码处理器在编码处理器之前,那么未解码的数据可能会被错误地编码,导致...

    pipeline ADC

    Pipeline ADC(流水线模数转换器)是一种高性能、高速度的模数转换技术,在现代通信系统、雷达系统及信号处理领域发挥着至关重要的作用。它能够实现高精度、高速率的数据采集与处理,对于实时性要求较高的应用尤其...

    Jenkins Pipeline 部署 SpringBoot 应用的教程详解

    Jenkins Pipeline 部署 SpringBoot 应用详解 本篇文章主要介绍了使用 Jenkins Pipeline 部署 SpringBoot 应用的详细教程,从安装依赖包到环境准备、安装 Jenkins 等步骤进行详细的介绍,对读者学习或工作具有一定的...

    构建机器学习Pipeline

    构建机器学习Pipeline,也就是构建机器学习流程线,是数据科学和软件工程领域中的一个重要议题。在现实世界中,数据科学家通常在一个为统计和机器学习量身定做的开发环境中工作,例如使用Python等工具,在一个“沙盒...

    Jenkins高级篇之Pipeline技巧篇-2-如何处理多个参数化变量.rar

    在处理复杂的项目时,往往需要处理多个参数化变量,以便根据不同的环境或需求灵活配置构建过程。本篇文章将深入探讨如何在Jenkins Pipeline中管理多个参数化变量,从而提高自动化构建的灵活性和可维护性。 1. **...

    zeromq的parallel-pipeline并行处理模式的jave实现

    zeromq是一个强大的开源消息库,它提供了多种消息传递模式,包括请求-响应、发布-订阅、推送-拉取以及本文将重点讨论的并行管道(parallel-pipeline)模式。在Java环境中,我们可以借助jeromq这个零MQ的Java绑定库来...

    Jenkins高级篇之Pipeline技巧篇-1-小白搭建Pipeline项目开发环境.rar

    3. 错误处理:使用try-catch-finally语句处理异常,确保流程的健壮性。 4. 日志记录:利用`echo`命令输出关键信息,便于调试和问题追踪。 5. 自动化测试:在Pipeline中集成单元测试和集成测试,确保代码质量。 五、...

    redispipeLine

    而 Pipeline 把这些命令打包在一起,一次性发送到服务器,服务器处理完所有命令后再一次性返回所有响应。这种方式减少了网络往返时间(RTT,Round-Trip Time),提高了整体效率。 使用 Pipeline 的场景通常包括: ...

    jenkins-ci-pipeline-源码.rar

    1. **Pipeline DSL**: Jenkins Pipeline 使用领域特定语言(DSL),通常是基于Groovy的。源码中可能包含了多个 `.jenkins` 或 `Jenkinsfile`,这些文件定义了Pipeline的工作流程。每个Pipeline由一系列阶段(stages...

    Jenkins高级篇之Pipeline技巧篇-4-根据参数传入条件控制执行不同stage.rar

    Pipeline是Jenkins的一种工作流语言,它允许用户用代码定义构建过程。Pipeline脚本通常存储在版本控制系统中,这样就可以跟踪历史变更,同时确保整个团队对构建流程有清晰的理解。 二、参数化构建 参数化构建是...

Global site tag (gtag.js) - Google Analytics