`

Hive To Elasticsearch

 
阅读更多

hive数据往elasticsearch导入的时候,需要用到一个插件。详情可以查看官网

 

具体的用法是这样:

  1. 在elasticsearch添加表。
  2. 在hive创建外部表
  3. 往hive插入数据

 

关键的步骤是在hive创建表的时候的定义:

 

CREATE EXTERNAL TABLE `report`(
  `id` string, 
  `rep_date` string COMMENT 'from deserializer', 
  `hour_id` int COMMENT 'from deserializer', 
  `channel_id` string COMMENT 'from deserializer', 
  `activate_num` int COMMENT 'from deserializer')
ROW FORMAT SERDE 
  'org.elasticsearch.hadoop.hive.EsSerDe' 
STORED BY 
  'org.elasticsearch.hadoop.hive.EsStorageHandler' 
WITH SERDEPROPERTIES ( 
  'serialization.format'='1')
TBLPROPERTIES (
  'es.index.auto.create'='false', 
  'es.nodes'='192.168.1.2:9200', 
  'es.resource'='report/detail_date', 
  'es.mapping.id' = 'id'
  )

 

 

如果你不需要指定elasticsearch的_id,那么'es.index.auto.create'='true',并且删掉es.mapping.id。默认的字段名一样,就可以实现导入。如果不一样,那么有'es.mapping.names'='hive_column:es_field'这样的用法。多列的话,就用英文逗号分隔。

 

 

 

分享到:
评论

相关推荐

    ES-HIVE数据互通

    5. **安装elasticsearch-hadoop库**:为了实现Hive与Elasticsearch之间的数据互通,需要安装elasticsearch-hadoop库。可以使用Maven或直接将jar包放置在合适的位置。 #### Hive端操作 接下来介绍如何在Hive端创建...

    CCTC 2016 AdMaster卢亿雷:Spark的大数据应用实践

    首先,卢亿雷介绍了AdMaster作为一家数据公司,使用了包括Hadoop、HBase、MapReduce、Pig、Hive、Spark、Storm、ElasticSearch和Pinot在内的大数据技术。这些技术的应用不仅限于数据存储、计算,还包括了数据的处理...

    js 得到某个月份的天数

    此外,还可以利用JavaScript ES2020引入的`Intl.DateTimeFormat` API,它可以格式化日期,并提供一些额外的信息,包括月份的天数。例如: ```javascript function getDaysInMonthWithIntl(year, month) { var ...

    亿级大数据实时分析平台.pptx

    在选择数据分析工具时,需要考虑开源方案与商业方案的优缺点,如MOLAP工具DRUID、ElasticSearch、kylin和Pinot,以及Spark SQL、Hive和MySQL等。这些工具各有特色,如DRUID以其低延迟、高可用性和集群设计适用于实时...

    中石油职称英语-中石油职称英语(精选试题).doc

    3. 试题3:The bees ________ out of their hive. 知识点:阅读理解-动物行为 这个试题考查考生的阅读理解能力,了解蜜蜂的行为和习性。 4. 试题4:I was exhausted when I reached home, and I flung myself ...

    FlinkForwardChina2018ApacheFlink1.7andBeyond.pdf

    除了模式匹配之外,Flink 1.7 还引入了 Elasticsearch 6 表存储支持,以及 SQL 客户端中的视图支持。这些新增功能进一步增强了 Flink 的易用性和功能性。 #### 其他显著特性 - **Scala 2.12 支持**:为了跟上 Scala...

    O2O行业数据平台实战从监控到诊断的数据产品搭建共33页

    在这个阶段,我们可能需要用到如Flume、Kafka等工具来收集来自各个业务端的数据,Hadoop或Spark Streaming用于实时处理这些数据,而Elasticsearch、Kibana等则用于数据的存储和可视化,以便快速洞察业务动态。...

    PyPI 官网下载 | amundsen_databuilder-1.4.11-py2-none-any.whl

    3. **元数据存储**:`amundsen_databuilder`支持将处理后的元数据存入关系数据库(如PostgreSQL)或NoSQL数据库(如Elasticsearch)中,便于后续的查询和检索。 4. **兼容性**:`amundsen_databuilder-1.4.11-py2-...

    flink写入带kerberos认证的kudu connector

    在Hadoop生态系统中,Kerberos通常被用来保护HDFS、HBase、Hive等组件的安全性。Kudu作为Hadoop家族的一员,同样支持Kerberos进行身份验证。 ### 2. Flink与Kudu Connector Apache Flink 提供了Kudu Connector,...

Global site tag (gtag.js) - Google Analytics