`

Hadoop study notes - Hive simple example

 
阅读更多
hive> create table dumprecord (line string);
OK
Time taken: 3.813 seconds
hive> load data local inpath '/home/userkkk/dump20gfile/DumpFileDemo.out'
    > overwrite into table dumprecord;
Copying data from file:/home/userkkk/dump20gfile/DumpFileDemo.out
Copying file: file:/home/userkkk/dump20gfile/DumpFileDemo.out
Loading data to table default.dumprecord
Deleted file:/user/hive/warehouse/dumprecord
OK
Time taken: 11.331 seconds
hive> ! wc -l /user/hive/warehouse/dumprecord/DumpFileDemo.out;
26396370 /user/hive/warehouse/dumprecord/DumpFileDemo.out
hive> select count(*) from dumprecord;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapred.reduce.tasks=<number>
Execution log at: /tmp/root/root_20120313234141_497d50d6-f993-4db3-b550-4c4b5650ddeb.log
Job running in-process (local Hadoop)
2012-03-13 23:41:38,801 null map = 0%,  reduce = 0%
2012-03-13 23:42:00,855 null map = 100%,  reduce = 100%
Ended Job = job_local_0001
OK
26396370
Time taken: 25.635 seconds
[root@vm-6d71-fcfa hadoop]# grep 'The automatic failover chain feature does not currently work when using multiple masters.' /user/hive/warehouse/dumprecord/DumpFi
leDemo.out | wc -l
225225
hive> select count(*) from dumprecord where line like '%The automatic failover chain feature does not currently work when using multiple masters.%';
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapred.reduce.tasks=<number>
Execution log at: /tmp/root/root_20120313234444_c2752641-4083-4dd6-9e47-830f1f4bf26c.log
Job running in-process (local Hadoop)
2012-03-13 23:44:49,518 null map = 0%,  reduce = 0%
2012-03-13 23:45:48,664 null map = 100%,  reduce = 100%
Ended Job = job_local_0001
OK
225225
Time taken: 62.416 seconds
hive>
分享到:
评论

相关推荐

    elasticsearch-hadoop-hive-2.3.4.jar包下载

    elasticsearch-hadoop-hive-2.3.4.jar包下载

    spark-1.6.3-bin-hadoop2.4-without-hive.tgz

    《Spark 1.6.3 与 Hadoop 2.4 整合:无 Hive 版本解析》 Spark 1.6.3 是 Apache Spark 的一个重要版本,它在大数据处理领域扮演着至关重要的角色。这次我们关注的是一个特别的构建——"spark-1.6.3-bin-hadoop2.4-...

    spark--bin-hadoop3-without-hive.tgz

    本压缩包“spark--bin-hadoop3-without-hive.tgz”提供了Spark二进制版本,针对Hadoop 3.1.3进行了编译和打包,这意味着它已经与Hadoop 3.x兼容,但不包含Hive组件。在CentOS 8操作系统上,这个版本的Spark已经被...

    spark-1.6.0-bin-hadoop2-without-hive.tgz

    hive2.1.0 --- spark1.6.0 hive on spark的spark包,这个是已经经过./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"编译后的了spark-1.6.0-bin-...

    mongo-hadoop-hive-2.0.0

    mongo-hadoop-hive-2.0.0.jar xx cc vvs . dd s . s ww w .

    spark-2.3.1-bin-hadoop2.9-without-hive.tgz

    在描述中提到的"spark-2.3.1-bin-hadoop2.9-without-hive.tgz"是一个特别构建的Spark发行版,不包含Hive的支持,意味着这个版本的Spark没有内置与Hive交互的能力。 在大数据处理领域,Spark以其内存计算特性而闻名...

    最新可用的hive mongdb jar 共三个

    hive 加载mongdb数据所需的三个包mongo-hadoop-core-2.0.2.jar mongo-hadoop-hive-2.0.0.jar mongo-java-driver-3.6.1.jar

    spark--bin-hadoop2-without-hive.tgz

    "spark--bin-hadoop2-without-hive.tgz"是一个包含Spark二进制发行版的压缩包,专为Hadoop 2版本设计,但不包含Hive组件。这个压缩包主要用于在没有Hive环境的系统上部署和运行Spark。 1. **Spark核心概念**: - *...

    mongo-hadoop-hive-2.0.2.jar

    本JAR包用于把Mongo数据抽取到hive种对表字段的映射,如果没有这个包,是无法映射的

    spark-3.2.0-bin-hadoop3-without-hive

    《Spark 3.2.0 与 Hadoop 3 的集成——无 Hive 版本解析》 Spark,作为大数据处理领域的重要工具,以其高效的内存计算和分布式数据处理能力备受青睐。Spark 3.2.0 是一个重要的版本更新,它在性能、稳定性和功能上...

    impala依赖cdh版本的hadoop-hbase-hive相关jar包.zip

    本压缩包"impala依赖cdh版本的hadoop-hbase-hive相关jar包.zip"提供了Ambari集成Impala 3.0.0时所需的依赖库,主要用于处理Hive外部表,这些表的数据存储在HBase之上。 首先,Impala是Cloudera开发的一个高性能、低...

    mongo-hadoop-core-2.0.0

    mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

    hadoop_apache-hive-1.2.1-bin.rar linux用

    Apache Hive 是一个基于 Hadoop 的数据仓库工具,用于查询、管理和分析大数据集。Hive 提供了一种SQL-like的语言(称为HQL,Hive Query Language)来操作存储在Hadoop分布式文件系统(HDFS)中的数据,使得非编程...

    hadoop-eclipse-plugin三个版本的插件都在这里了。

    hadoop-eclipse-plugin-2.7.4.jar和hadoop-eclipse-plugin-2.7.3.jar还有hadoop-eclipse-plugin-2.6.0.jar的插件都在这打包了,都可以用。

    hadoop-hue-hive:Vagrant+Chef 食谱能够在 ubuntu 上安装 hadoop、hue 和 hive

    hadoop-hue-hive-cookbook TODO:在此处输入食谱说明。 支持的平台 TODO:列出您支持的平台。 属性 钥匙 类型 描述 默认 ['hadoop-hue-hive']['培根'] 布尔值 是否包括培根 真的 用法 hadoop-hue-hive::default ...

    spark-2.3.0-bin-hadoop2-without-hive

    总结一下,"spark-2.3.0-bin-hadoop2-without-hive"是一个专为不依赖 Hive JAR 包环境设计的 Spark 版本,适合那些希望利用 Spark 的计算优势处理 Hive 数据,而不依赖 Hive 全部功能的场景。在使用时,需要自行配置...

    hadoop-eclipse-plugin-3.1.3.jar

    hadoop-eclipse-plugin-3.1.3,eclipse版本为eclipse-jee-2020-03

    Hadoop-2.8.0-HA-Hive安装部署与HQL07.hive.mp4

    Hadoop-2.8.0-HA-Hive安装部署与HQL07.hive.mp4

    Apache Hadoop---Hive.docx

    Apache Hadoop 中的 Hive 是一个强大的数据仓库工具,最初由 Facebook 开发,旨在简化大数据集的管理和分析。Hive 构建在 Hadoop 生态系统之上,为非结构化和半结构化的海量数据提供了一个结构化的查询接口。通过 ...

    flink-connector-hive-2.11-1.13.2-API文档-中文版.zip

    赠送jar包:flink-connector-hive_2.11-1.13.2.jar; 赠送原API文档:flink-connector-hive_2.11-1.13.2-javadoc.jar; 赠送源代码:flink-connector-hive_2.11-1.13.2-sources.jar; 赠送Maven依赖信息文件:flink-...

Global site tag (gtag.js) - Google Analytics