`
dacoolbaby
  • 浏览: 1264792 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

sqoop导入Hive配置

阅读更多

数据库中经常有换行符之类的数据,导入到Hive里面会发生重大的问题,所以,sqoop是有一个配置项来解决这个问题的。

 

sqoop import --connect jdbc:oracle:thin:@url --username user --password pwd \
--table PA18ODSDATA.PARTNER_INFO  \
--columns ID_PARTNER_INFO,PARTNER_ID,PARTNER_NAME,PROJECT_ID,PROJECT_NAME\
 -m 1 --fields-terminated-by '\001' --lines-terminated-by '\n' \
--hive-drop-import-delims --hive-import --hive-overwrite \
--hive-table eshop.partner_info

 

使用 --query 则必须加上 --output-dir,以文本格式导出数据

如果直接导入表,则如上面的代码所示。

其中,去掉--hive-overwrite关键字,就可以给Hive表插入数据,而非覆盖数据。

 

注意,插入数据的表,必须是text表,或者是sequence表,rcfile表是不支持插入新数据的。 

 

其中,关于Hive的配置解释如下:

详见:

http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html

 

Table�14.�Hive arguments:

Argument

Description

--hive-home <dir>

Override $HIVE_HOME

--hive-import

Import tables into Hive (Uses Hive’s default delimiters if none are set.)

--hive-overwrite

Overwrite existing data in the Hive table.

--create-hive-table

If set, then the job will fail if the target hive

 

table exits. By default this property is false.

--hive-table <table-name>

Sets the table name to use when importing to Hive.

--hive-drop-import-delims

Drops \n, \r, and \01 from string fields when importing to Hive.

--hive-delims-replacement

Replace \n, \r, and \01 from string fields with user defined string when importing to Hive.

--hive-partition-key

Name of a hive field to partition are sharded on

--hive-partition-value <v>

String-value that serves as partition key for this imported into hive in this job.

--map-column-hive <map>

Override default mapping from SQL type to Hive type for configured columns.

 

分享到:
评论

相关推荐

    sqoop导入数据到hive中,数据不一致

    4. 分区问题:如果Hive表是分区表,而Sqoop导入时未正确处理分区,可能会导致数据分布不均或者丢失部分数据。确保在导入时指定了正确的分区字段和值。 5. 编码问题:数据源的字符编码与Hive或Hadoop集群的默认编码...

    2、sqoop导入(RMDB-mysql、sybase到HDFS-hive)

    在大数据处理中,Sqoop 提供了方便的数据导入和导出功能,它能够将结构化的数据从传统数据库迁移到 Hadoop 生态系统中的组件,如 Hive。 在本主题中,我们将深入探讨 Sqoop 的导入功能,特别是如何将数据从 MySQL ...

    sqoop 从 hive 导到mysql遇到的问题.docx

    Sqoop 从 Hive 导入 MySQL 遇到的问题 Sqoop 是一个开源的数据传输工具,由 Apache 社区维护,用于在 Hadoop 和结构化数据存储之间传输数据。Sqoop 支持多种数据源,包括 MySQL、Oracle、PostgreSQL 等关系数据库...

    基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

    在大数据项目中,AirFlow能确保数据从收集到分析的整个流程自动化、有条不紊地运行,例如设置定时任务从MySQL抽取数据,用Sqoop导入HDFS,然后启动Hive和Spark作业进行分析。 最后,Grafana是一个强大的可视化工具...

    Sqoop数据采集工具简介、安装、使用学习笔记(配合Hive和Hbase)

    最初的设计方案是通过 Sqoop 将数据从 PostgreSQL 导入到 Kafka,再通过存储程序将 Kafka 的数据保存至 Hive 或 HBase 中。然而,在实施过程中遇到了 Sqoop 版本兼容性问题: - **Sqoop1**:适用于命令行模式执行。...

    第9章 Sqoop组件安装配置.pptx

    * 将关系型数据库的数据导入到 Hadoop 及其相关的系统中,如 Hive 和 HBase。 * 将数据从 Hadoop 系统里抽取并导出到关系型数据库。 Sqoop 的架构部署简单、使用方便,但也存在一些缺点,例如命令行方式容易出错,...

    第15章-Sqoop+Hive+Hbase+Kettle+R某技术论坛日志分析项目案例.docx

    7. **Sqoop MySQL数据导入**:使用Sqoop将MySQL中的数据导入到Hive表中。 8. **R语言可视化分析**:利用R语言绘制图表,直观展示数据分析结果。 通过完成以上任务,不仅可以掌握各工具的具体操作步骤,还能深入理解...

    使用shell脚本执行hive、sqoop命令的方法

    2. **环境配置**:确保Hadoop、Hive和Sqoop等相关组件已经正确安装并配置好。 3. **错误处理**:在实际应用中,应添加适当的错误处理机制,比如检查命令执行的结果,并在发生错误时采取相应的措施。 4. **安全性**:...

    Sqoop导Oracle数据到Hive

    ### Sqoop导入Oracle数据到Hive的详细步骤与解析 #### 一、概述 在大数据处理领域中,经常需要将关系型数据库中的数据导入到Hadoop的HDFS中,以便进一步进行数据分析或处理。其中,Sqoop作为一种强大的工具,能够...

    sqoop导入数据到hdfs路径

    ### Sqoop导入数据到HDFS路径详解 #### 一、Sqoop简介 Sqoop是一款开源工具,主要用于在Hadoop和关系型数据库之间高效地传输大量数据。它利用MapReduce作业来提取、转换和加载(ETL)数据。通过Sqoop,用户可以从...

    sqoop学习资源

    Sqoop 可以与 Hive、HBase、Pig 等组件无缝集成,进一步增强大数据处理能力。 9. **Sqoop 导入导出模式** - **批处理**:一次性导入整个表或查询结果。 - **连续导入**:监控数据库的变更,并仅导入新数据或已...

    hive分区导入

    7. **hive&&sqoop的操作须知.txt**:这个文件很可能详细阐述了在Hive中进行数据分区导入时,使用Sqoop需要注意的事项,包括配置、参数设置、优化建议等关键信息。 综上,Hive分区导入涉及的主要知识点包括: 1. ...

    23-Sqoop数据导入导出1

    ### Sqoop导入原理 1. **JDBC检查**:在开始导入前,Sqoop通过JDBC连接数据库,获取表结构和列信息,如数据类型,将其映射为Java类型。 2. **代码生成器**: Sqoop根据表信息生成Java类,用于存储从数据库抽取的...

    大数据离线分析系统,基于hadoop的hive以及sqoop的安装和配置

    本主题将深入探讨如何构建一个基于Hadoop的大数据离线分析系统,并着重讲解Hive和Sqoop的安装与配置。Hadoop是分布式计算框架,而Hive是基于Hadoop的数据仓库工具,用于数据 warehousing 和 SQL-like 查询。另一方面...

    Hive_UDF.rar_hive_sqoop

    在这个名为“Hive_UDF.rar_hive_sqoop”的压缩包中,我们可能会找到关于如何集成和自定义 Hive 用户定义函数(UDF)以及利用 Sqoop 进行数据导入导出的详细资料。 首先,让我们深入理解 Hive UDF。Hive 支持多种...

    大数据运维技术第9章 Sqoop组件安装配置.pptx

    1. **数据导入**:Sqoop能够将关系型数据库中的数据高效地导入到Hadoop的HDFS中,同时支持进一步导入到如Hive、HBase等分布式存储和分析系统。通过自动数据映射和类型转换, Sqoop能确保数据在不同环境间的无缝流转...

    mysql-connector-5.1.39,配合sqoop1.4.7和hive2.1.1使用

    4. **数据分析**:在Hadoop集群上,Hive可以读取由Sqoop导入的MySQL数据进行大规模的分析工作,利用Hadoop的分布式计算能力处理大量数据,然后将结果通过Sqoop返回到MySQL,或者直接在MySQL中进行进一步的处理和展示...

    Sqoop学习文档(1){Sqoop基本概念、Sqoop的安装配置}.docx

    它主要负责将结构化的数据从 RDBMS(例如 MySQL)导入到 Hadoop 分布式文件系统(HDFS)、HBase 或 Hive,同时也能将数据从 Hadoop 系统导回 RDBMS。Sqoop 利用 MapReduce 框架来并行处理数据,从而加速数据的传输...

    Sqoop安装与使用

    在将 mysql 数据库中的表导入到 HDFS 中时,需要启动 hadoop,登录 mysql 数据库,查看 hive 数据库中有哪些表,然后使用 sqoop 命令将 hive 数据库中的表导入到 HDFS 中。最后,查看是否导入 HDFS 中。 Sqoop ...

Global site tag (gtag.js) - Google Analytics