使用压缩来看看
sqoop:000> update job --jid 1
Compression format:
0 : NONE
1 : DEFAULT
2 : DEFLATE
3 : GZIP
4 : BZIP2
5 : LZO
6 : LZ4
7 : SNAPPY
Choose: 3
Output directory: /home/dimDateGZip
Job was successfully updated with status FINE
使用Gzip
同样的job 跑出来的不一样
[root@localhost ~]# hadoop fs -ls /home/dimDateGZip 14/03/20 09:39:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Found 11 items -rw-r--r-- 1 root supergroup 0 2014-03-20 09:35 /home/dimDateGZip/_SUCCESS -rw-r--r-- 1 root supergroup 2266 2014-03-20 09:34 /home/dimDateGZip/part-m-00000.gz -rw-r--r-- 1 root supergroup 2461 2014-03-20 09:34 /home/dimDateGZip/part-m-00001.gz -rw-r--r-- 1 root supergroup 1905 2014-03-20 09:34 /home/dimDateGZip/part-m-00002.gz -rw-r--r-- 1 root supergroup 2814 2014-03-20 09:34 /home/dimDateGZip/part-m-00003.gz -rw-r--r-- 1 root supergroup 1546 2014-03-20 09:35 /home/dimDateGZip/part-m-00004.gz -rw-r--r-- 1 root supergroup 2804 2014-03-20 09:34 /home/dimDateGZip/part-m-00005.gz -rw-r--r-- 1 root supergroup 20 2014-03-20 09:34 /home/dimDateGZip/part-m-00006.gz -rw-r--r-- 1 root supergroup 20 2014-03-20 09:35 /home/dimDateGZip/part-m-00007.gz -rw-r--r-- 1 root supergroup 20 2014-03-20 09:35 /home/dimDateGZip/part-m-00008.gz -rw-r--r-- 1 root supergroup 535 2014-03-20 09:35 /home/dimDateGZip/part-m-00009.gz [root@localhost ~]# hdfs dfs -ls /home/dimDate 14/03/20 09:42:09 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Found 11 items -rw-r--r-- 1 root supergroup 0 2014-03-20 09:29 /home/dimDate/_SUCCESS -rw-r--r-- 1 root supergroup 20748 2014-03-20 09:28 /home/dimDate/part-m-00000 -rw-r--r-- 1 root supergroup 22248 2014-03-20 09:28 /home/dimDate/part-m-00001 -rw-r--r-- 1 root supergroup 17461 2014-03-20 09:28 /home/dimDate/part-m-00002 -rw-r--r-- 1 root supergroup 25573 2014-03-20 09:29 /home/dimDate/part-m-00003 -rw-r--r-- 1 root supergroup 14132 2014-03-20 09:29 /home/dimDate/part-m-00004 -rw-r--r-- 1 root supergroup 25693 2014-03-20 09:29 /home/dimDate/part-m-00005 -rw-r--r-- 1 root supergroup 0 2014-03-20 09:29 /home/dimDate/part-m-00006 -rw-r--r-- 1 root supergroup 0 2014-03-20 09:29 /home/dimDate/part-m-00007 -rw-r--r-- 1 root supergroup 0 2014-03-20 09:29 /home/dimDate/part-m-00008 -rw-r--r-- 1 root supergroup 3477 2014-03-20 09:29 /home/dimDate/part-m-00009
压和没压差10倍.
下一步就是把table 搞进hive 打算用RCFile
相关推荐
apache-atlas-2.3.0-hbase-hook.tar.gz Apache Atlas 框架是一组可扩展的核心基础治理服务,使企业能够有效且高效地满足 Hadoop 内的合规性要求,并允许与整个企业数据生态系统集成。这将通过使用规范和取证模型、...
Apache Sqoop 是另一个重要的组件,它是用来高效地在关系型数据库和Hadoop之间导入导出数据的工具。而Zookeeper则是Apache的一个分布式协调服务,它为分布式应用程序提供了可靠的同步、命名服务等。 `apache-atlas-...
在IT行业中,我们经常涉及到各种库和框架的集成与使用,这次我们关注的是"Atlas2.3.0"依赖的组件:"org.restlet/sqoop-1.4.6.2.3.99.0-195"。这个依赖包含了三个关键的JAR文件:`sqoop-1.4.6.2.3.99.0-195.jar`,`...
在大数据处理领域,Oozie是一个非常重要的工作流调度系统,它被广泛应用于Hadoop生态系统中,用于管理和调度Hadoop相关的任务,如MapReduce、Pig、Hive、Sqoop等。Oozie的核心功能是协调工作流程,监控作业状态,并...
软件版本列表包括了搭建Hadoop生态系统所需的关键组件版本,例如JDK 1.7.0_67、MySQL 5.1、Hadoop 2.3.0、HBase 0.96、Hive 0.12、SolrCloud 4.4、Storm 0.92、Kafka 2.8.0、Flume-ng 1.4.0、Sqoop 1.4.4等。...
例如,Hadoop版本为3.1.2,Zookeeper为3.5.5,Hive为3.3.1,HBase为2.2.0,Spark为2.4.3,Flume为1.9.0,Sqoop为1.4.7,Kafka为2.12-2.3.0,以及Storm为2.0.4。每个组件的配置文件(如.bashrc)也进行了设置,以确保...
* Ambari 的作用是创建、管理、监视 Hadoop 的集群,包括 Hadoop 整个生态圈(例如 Hive、HBase、Sqoop、Zookeeper 等)。 * Ambari 现在所支持的平台组件也越来越多,例如流行的 Spark、Storm 等计算框架,以及资源...
使用Python的爬虫技术可以自动化地从中国电影网等平台抓取历史票房数据。这些数据包括但不限于电影名称、上映日期、首日票房、每日票房变化等,为后续的分析和预测提供了基础。爬虫技术通常会涉及到如BeautifulSoup...
开发环境:IDEA+Pycharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark 1.数据采集(pachong.py)、预处理: 采集豆瓣电影top250电影信息,采集电影名称、电影简介、电影评分、其他信息、电影连接等字段,抓取...
开发环境:IDEA+Pycharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark 1.数据采集(pachong.py)、预处理: 采集豆瓣电影top250电影信息,采集电影名称、电影简介、电影评分、其他信息、电影连接等字段,抓取...