`

sqoop语句简单分析一

 
阅读更多

 

最近在学习sqoop   分享几个小例子

 

1). 根据用户:CRMDEV (用户名大写) 密码:crmdev 导出10.10.35.65中的Oracle实例crmdev_standby  的表ORDR_MAIN 表的前10条记录

 ./sqoop import --connect jdbc:oracle:thin:@10.10.35.65:1521/crmdev_standby --username CRMDEV --password crmdev --table ORDR_MAIN --where "rownum < 10"

 

2). 指定导出数据的列分割符“0x001”,行分隔符"\0x002" ;指定输出的HDFS目录

条件中出现引号的情况时,内部引号变成单引号; 表没有主键时 可以自定义指定一列;

 

./sqoop import --connect jdbc:oracle:thin:@10.10.35.65:1521/crmdev_standby   --username CRMDEV --password crmdev --table CUST_BASE --where "daytime>to_date('2012-01-01','yyyy-MM-dd') and daytime<to_date('2013-01-01','yyyy-MM-dd')" --fields-terminated-by '\0x001' --lines-terminated-by '\0x002' --split-by 'CUSTID'  --target-dir /user/admin/CUST_BASE

 

3)追加到现有目录

[admin@hadoop-data-xiaoj bin]$ ./sqoop import --connect jdbc:oracle:thin:@10.10.35.65/crmdev_standby --username CRMDEV --password crmdev --table ORDR_PROD --where 'ordrid between 31211117058273-1000000 and 31211117058273+1000000' --fields-terminated-by '\0x001' --lines-terminated-by '\0x002' --split-by 'ORDRID' --append --target-dir '/user/admin/ORDR_PROD'

 

 

获取更多资料  请参考官方文档http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_selecting_the_data_to_import

 
分享到:
评论

相关推荐

    尚硅谷大数据技术之Sqoop1

    【尚硅谷大数据技术之 Sqoop1】章节主要介绍了Sqoop这款工具的基本概念、工作原理、安装配置以及简单的使用案例。Sqoop是专为Hadoop和传统数据库之间进行数据传输而设计的开源工具,支持从RDBMS(如MySQL、Oracle等...

    sqoop-1.4.6-hadoop-2.6最小资源包

    1. **数据导入**:通过 SQL 查询语句, Sqoop 可以选择性地从数据库中抽取数据,支持全量导入和增量导入。全量导入是指将整个表的数据一次性导入 Hadoop,而增量导入则可以基于某个时间戳或序列号来只导入自上次导入...

    hadoop软件1,和hive_3,sqoop_2搭配使用

    Hive将复杂的MapReduce作业抽象成简单的SQL语句,降低了大数据分析的门槛。Hive将数据组织成表的形式,支持结构化和半结构化数据,适合离线批处理场景。通过Hive,我们可以快速地对存储在HDFS上的大量数据进行统计...

    一个简单的Hive项目,使用了Sqoop、Hadoop、Hive、MySQL,对电商数据进行分析-BI_project.zip

    该项目是一个综合性的大数据分析实践,主要利用Hadoop生态系统中的组件,包括Sqoop、Hadoop、Hive以及MySQL,对电商数据进行深入分析。这个过程涵盖了数据的导入、存储、处理和查询等多个环节,展示了大数据技术在...

    Hadoop技术Sqoop简介共12页.pdf.zip

    - **复杂查询**:除了简单地导入整个表,Sqoop还支持通过SQL查询语句选择需要导入的数据。 - **数据分片**:在大规模数据导入时,可以通过分区策略将数据分布到多个HDFS文件,提高处理效率。 使用Sqoop需要注意的...

    sqoop中文文档

    Sqoop 是一个用于在 Apache Hadoop 和传统关系型数据库之间传输数据的工具。它提供了高效、可靠的批处理数据导入导出功能,使大数据处理与传统数据仓库系统能够无缝结合。以下是对 Sqoop 技术的详细说明: 1. **...

    使用shell脚本执行hive、sqoop命令的方法

    Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,使不熟悉MapReduce的用户也可以用SQL语句进行数据查询,从而达到减少开发成本的目的。 #### Sqoop命令...

    Sqoop

    Sqoop 1 更专注于简单易用的批处理导入导出,而 Sqoop 2 引入了更复杂的管理和作业调度功能,但其成熟度和社区支持不如 Sqoop 1。此外,Sqoop 可以与多种大数据组件集成,如 Hive、HBase、Pig 等,提供更加灵活的...

    电商销售数据复盘用教程数据 hive分析-菜鸟入门

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,使不熟悉MapReduce的用户可以方便地通过SQL语句来处理存储在Hadoop中的大规模数据集。Hive适合于进行...

    (南阳理工)大数据实验报告02.docx

    - 简单查询分析:使用SQL语句进行数据查询,例如SELECT语句用于获取特定信息。 - 查询条数统计分析:通过COUNT函数统计特定字段的记录数,以了解数据分布情况。 这个实验报告深入介绍了大数据平台搭建的基本流程...

    hardoop学习

    2. Apache Hive:是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。...

    hadoop海量数据处理详解与项目实战

    Hive是一个建立在Hadoop之上的数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能(HQL),可以将SQL语句转换为MapReduce任务进行执行。Hive适用于需要进行数据摘要、查询和分析的...

    百度去BMR解决方案,百度云平台

    Hive是一个建立在Hadoop之上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。 **3.5.2 控制台中提交Hive作业** - 准备Hive脚本:编写HQL语句。 - 创建BMR集群:创建支持Hive...

    DB总结

    Hive将SQL语句转换为MapReduce任务进行执行,降低了大数据分析的门槛。Hive支持多种数据模型,如表、分区和桶,以及复杂的查询操作,如JOIN和聚合,适用于离线分析。 3. **Hadoop生态体系**: Hadoop是Apache基金...

    简历-javaEE软件工程师.doc

    * 熟悉 Oracle、MySQL、SQL Server 数据库,熟练掌握 sql 语句,能够进行简单的 PL/SQL 开发,并且了解 MySQL 数据库的优化和非关系行数据库 plsql 和 mongoDB * 熟悉 ibm 的 clearquest、SVN、Maven 等项目开发及...

    Hadoop权威指南(第2版)中文

    MapReduce是一种编程模型,用于大规模数据集(通常大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”来源于函数式编程语言,尽管MapReduce并不是一个纯函数式的框架。MapReduce框架提供了一个简单的...

    大数据课程体系.docx

    - **Java开发基础知识**:涵盖Java语言的基础语法、变量、数据类型、运算符、流程控制语句(如if语句、for循环等)等内容。 - **Eclipse开发环境**:介绍Eclipse集成开发环境的安装与配置方法,包括如何在Eclipse中...

    hadoop大数据基础学习

    - 是一个建立在Hadoop之上的数据仓库工具,可以将复杂的MapReduce实现的查询语句转换为简单的SQL语句。 - 主要用于大数据的离线分析处理。 2. **Pig**: - 是一种高层数据流语言和运行环境,使得非程序员也能够...

    1.Hadoop入门进阶课程_第1周_Hadoop1.X伪分布式安装.pdf

    - **定义**: Apache Hadoop 是一个开源框架,它允许开发者通过简单的编程模型来处理大量的数据集,并且能够在集群服务器上进行分布式处理。 - **特点**: - **可扩展性**: 设计上可以从单个服务器扩展到成千上万台...

Global site tag (gtag.js) - Google Analytics