`
dacoolbaby
  • 浏览: 1262352 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

sqoop导入Hive配置

阅读更多

数据库中经常有换行符之类的数据,导入到Hive里面会发生重大的问题,所以,sqoop是有一个配置项来解决这个问题的。

 

sqoop import --connect jdbc:oracle:thin:@url --username user --password pwd \
--table PA18ODSDATA.PARTNER_INFO  \
--columns ID_PARTNER_INFO,PARTNER_ID,PARTNER_NAME,PROJECT_ID,PROJECT_NAME\
 -m 1 --fields-terminated-by '\001' --lines-terminated-by '\n' \
--hive-drop-import-delims --hive-import --hive-overwrite \
--hive-table eshop.partner_info

 

使用 --query 则必须加上 --output-dir,以文本格式导出数据

如果直接导入表,则如上面的代码所示。

其中,去掉--hive-overwrite关键字,就可以给Hive表插入数据,而非覆盖数据。

 

注意,插入数据的表,必须是text表,或者是sequence表,rcfile表是不支持插入新数据的。 

 

其中,关于Hive的配置解释如下:

详见:

http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html

 

Table�14.�Hive arguments:

Argument

Description

--hive-home <dir>

Override $HIVE_HOME

--hive-import

Import tables into Hive (Uses Hive’s default delimiters if none are set.)

--hive-overwrite

Overwrite existing data in the Hive table.

--create-hive-table

If set, then the job will fail if the target hive

 

table exits. By default this property is false.

--hive-table <table-name>

Sets the table name to use when importing to Hive.

--hive-drop-import-delims

Drops \n, \r, and \01 from string fields when importing to Hive.

--hive-delims-replacement

Replace \n, \r, and \01 from string fields with user defined string when importing to Hive.

--hive-partition-key

Name of a hive field to partition are sharded on

--hive-partition-value <v>

String-value that serves as partition key for this imported into hive in this job.

--map-column-hive <map>

Override default mapping from SQL type to Hive type for configured columns.

 

分享到:
评论

相关推荐

    sqoop导入数据到hive中,数据不一致

    4. 分区问题:如果Hive表是分区表,而Sqoop导入时未正确处理分区,可能会导致数据分布不均或者丢失部分数据。确保在导入时指定了正确的分区字段和值。 5. 编码问题:数据源的字符编码与Hive或Hadoop集群的默认编码...

    2、sqoop导入(RMDB-mysql、sybase到HDFS-hive)

    在大数据处理中,Sqoop 提供了方便的数据导入和导出功能,它能够将结构化的数据从传统数据库迁移到 Hadoop 生态系统中的组件,如 Hive。 在本主题中,我们将深入探讨 Sqoop 的导入功能,特别是如何将数据从 MySQL ...

    sqoop 从 hive 导到mysql遇到的问题.docx

    Sqoop 从 Hive 导入 MySQL 遇到的问题 Sqoop 是一个开源的数据传输工具,由 Apache 社区维护,用于在 Hadoop 和结构化数据存储之间传输数据。Sqoop 支持多种数据源,包括 MySQL、Oracle、PostgreSQL 等关系数据库...

    基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

    在大数据项目中,AirFlow能确保数据从收集到分析的整个流程自动化、有条不紊地运行,例如设置定时任务从MySQL抽取数据,用Sqoop导入HDFS,然后启动Hive和Spark作业进行分析。 最后,Grafana是一个强大的可视化工具...

    Sqoop数据采集工具简介、安装、使用学习笔记(配合Hive和Hbase)

    最初的设计方案是通过 Sqoop 将数据从 PostgreSQL 导入到 Kafka,再通过存储程序将 Kafka 的数据保存至 Hive 或 HBase 中。然而,在实施过程中遇到了 Sqoop 版本兼容性问题: - **Sqoop1**:适用于命令行模式执行。...

    第9章 Sqoop组件安装配置.pptx

    * 将关系型数据库的数据导入到 Hadoop 及其相关的系统中,如 Hive 和 HBase。 * 将数据从 Hadoop 系统里抽取并导出到关系型数据库。 Sqoop 的架构部署简单、使用方便,但也存在一些缺点,例如命令行方式容易出错,...

    第15章-Sqoop+Hive+Hbase+Kettle+R某技术论坛日志分析项目案例.docx

    7. **Sqoop MySQL数据导入**:使用Sqoop将MySQL中的数据导入到Hive表中。 8. **R语言可视化分析**:利用R语言绘制图表,直观展示数据分析结果。 通过完成以上任务,不仅可以掌握各工具的具体操作步骤,还能深入理解...

    Sqoop导Oracle数据到Hive

    ### Sqoop导入Oracle数据到Hive的详细步骤与解析 #### 一、概述 在大数据处理领域中,经常需要将关系型数据库中的数据导入到Hadoop的HDFS中,以便进一步进行数据分析或处理。其中,Sqoop作为一种强大的工具,能够...

    sqoop导入数据到hdfs路径

    ### Sqoop导入数据到HDFS路径详解 #### 一、Sqoop简介 Sqoop是一款开源工具,主要用于在Hadoop和关系型数据库之间高效地传输大量数据。它利用MapReduce作业来提取、转换和加载(ETL)数据。通过Sqoop,用户可以从...

    sqoop学习资源

    Sqoop 可以与 Hive、HBase、Pig 等组件无缝集成,进一步增强大数据处理能力。 9. **Sqoop 导入导出模式** - **批处理**:一次性导入整个表或查询结果。 - **连续导入**:监控数据库的变更,并仅导入新数据或已...

    hive分区导入

    7. **hive&&sqoop的操作须知.txt**:这个文件很可能详细阐述了在Hive中进行数据分区导入时,使用Sqoop需要注意的事项,包括配置、参数设置、优化建议等关键信息。 综上,Hive分区导入涉及的主要知识点包括: 1. ...

    使用shell脚本执行hive、sqoop命令的方法

    2. **环境配置**:确保Hadoop、Hive和Sqoop等相关组件已经正确安装并配置好。 3. **错误处理**:在实际应用中,应添加适当的错误处理机制,比如检查命令执行的结果,并在发生错误时采取相应的措施。 4. **安全性**:...

    大数据离线分析系统,基于hadoop的hive以及sqoop的安装和配置

    本主题将深入探讨如何构建一个基于Hadoop的大数据离线分析系统,并着重讲解Hive和Sqoop的安装与配置。Hadoop是分布式计算框架,而Hive是基于Hadoop的数据仓库工具,用于数据 warehousing 和 SQL-like 查询。另一方面...

    Hive_UDF.rar_hive_sqoop

    在这个名为“Hive_UDF.rar_hive_sqoop”的压缩包中,我们可能会找到关于如何集成和自定义 Hive 用户定义函数(UDF)以及利用 Sqoop 进行数据导入导出的详细资料。 首先,让我们深入理解 Hive UDF。Hive 支持多种...

    大数据运维技术第9章 Sqoop组件安装配置.pptx

    1. **数据导入**:Sqoop能够将关系型数据库中的数据高效地导入到Hadoop的HDFS中,同时支持进一步导入到如Hive、HBase等分布式存储和分析系统。通过自动数据映射和类型转换, Sqoop能确保数据在不同环境间的无缝流转...

    mysql-connector-5.1.39,配合sqoop1.4.7和hive2.1.1使用

    4. **数据分析**:在Hadoop集群上,Hive可以读取由Sqoop导入的MySQL数据进行大规模的分析工作,利用Hadoop的分布式计算能力处理大量数据,然后将结果通过Sqoop返回到MySQL,或者直接在MySQL中进行进一步的处理和展示...

    Sqoop学习文档(1){Sqoop基本概念、Sqoop的安装配置}.docx

    它主要负责将结构化的数据从 RDBMS(例如 MySQL)导入到 Hadoop 分布式文件系统(HDFS)、HBase 或 Hive,同时也能将数据从 Hadoop 系统导回 RDBMS。Sqoop 利用 MapReduce 框架来并行处理数据,从而加速数据的传输...

    23-Sqoop数据导入导出1

    ### Sqoop导入原理 1. **JDBC检查**:在开始导入前,Sqoop通过JDBC连接数据库,获取表结构和列信息,如数据类型,将其映射为Java类型。 2. **代码生成器**: Sqoop根据表信息生成Java类,用于存储从数据库抽取的...

    Sqoop安装与使用

    在将 mysql 数据库中的表导入到 HDFS 中时,需要启动 hadoop,登录 mysql 数据库,查看 hive 数据库中有哪些表,然后使用 sqoop 命令将 hive 数据库中的表导入到 HDFS 中。最后,查看是否导入 HDFS 中。 Sqoop ...

Global site tag (gtag.js) - Google Analytics