hive> create table dumprecord (line string);
OK
Time taken: 3.813 seconds
hive> load data local inpath '/home/userkkk/dump20gfile/DumpFileDemo.out'
> overwrite into table dumprecord;
Copying data from file:/home/userkkk/dump20gfile/DumpFileDemo.out
Copying file: file:/home/userkkk/dump20gfile/DumpFileDemo.out
Loading data to table default.dumprecord
Deleted file:/user/hive/warehouse/dumprecord
OK
Time taken: 11.331 seconds
hive> ! wc -l /user/hive/warehouse/dumprecord/DumpFileDemo.out;
26396370 /user/hive/warehouse/dumprecord/DumpFileDemo.out
hive> select count(*) from dumprecord;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
Execution log at: /tmp/root/root_20120313234141_497d50d6-f993-4db3-b550-4c4b5650ddeb.log
Job running in-process (local Hadoop)
2012-03-13 23:41:38,801 null map = 0%, reduce = 0%
2012-03-13 23:42:00,855 null map = 100%, reduce = 100%
Ended Job = job_local_0001
OK
26396370
Time taken: 25.635 seconds
[root@vm-6d71-fcfa hadoop]# grep 'The automatic failover chain feature does not currently work when using multiple masters.' /user/hive/warehouse/dumprecord/DumpFi
leDemo.out | wc -l
225225
hive> select count(*) from dumprecord where line like '%The automatic failover chain feature does not currently work when using multiple masters.%';
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
Execution log at: /tmp/root/root_20120313234444_c2752641-4083-4dd6-9e47-830f1f4bf26c.log
Job running in-process (local Hadoop)
2012-03-13 23:44:49,518 null map = 0%, reduce = 0%
2012-03-13 23:45:48,664 null map = 100%, reduce = 100%
Ended Job = job_local_0001
OK
225225
Time taken: 62.416 seconds
hive>
分享到:
相关推荐
elasticsearch-hadoop-hive-2.3.4.jar包下载
docker-hadoop-spark-hive 快速构建你的大数据环境docker-hadoop-spark-hivedocker-hadoop-spark-hive 快速构建你的大数据环境这是一个 基于docker 构建的 一键启停 大数据 学习平台Hadoop 2.8配置单元 2.1.0spark ...
本压缩包“spark--bin-hadoop3-without-hive.tgz”提供了Spark二进制版本,针对Hadoop 3.1.3进行了编译和打包,这意味着它已经与Hadoop 3.x兼容,但不包含Hive组件。在CentOS 8操作系统上,这个版本的Spark已经被...
hive2.1.0 --- spark1.6.0 hive on spark的spark包,这个是已经经过./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"编译后的了spark-1.6.0-bin-...
mongo-hadoop-hive-2.0.0.jar xx cc vvs . dd s . s ww w .
在描述中提到的"spark-2.3.1-bin-hadoop2.9-without-hive.tgz"是一个特别构建的Spark发行版,不包含Hive的支持,意味着这个版本的Spark没有内置与Hive交互的能力。 在大数据处理领域,Spark以其内存计算特性而闻名...
hive 加载mongdb数据所需的三个包mongo-hadoop-core-2.0.2.jar mongo-hadoop-hive-2.0.0.jar mongo-java-driver-3.6.1.jar
"spark--bin-hadoop2-without-hive.tgz"是一个包含Spark二进制发行版的压缩包,专为Hadoop 2版本设计,但不包含Hive组件。这个压缩包主要用于在没有Hive环境的系统上部署和运行Spark。 1. **Spark核心概念**: - *...
spark2.3.0 without hive 编译版本,用于Hive on ..../dev/make-distribution.sh --name "hadoop277-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,orc-provided" -Dhadoop.version=2.7.7
总结一下,"spark-2.3.0-bin-hadoop2-without-hive"是一个专为不依赖 Hive JAR 包环境设计的 Spark 版本,适合那些希望利用 Spark 的计算优势处理 Hive 数据,而不依赖 Hive 全部功能的场景。在使用时,需要自行配置...
本JAR包用于把Mongo数据抽取到hive种对表字段的映射,如果没有这个包,是无法映射的
本压缩包"impala依赖cdh版本的hadoop-hbase-hive相关jar包.zip"提供了Ambari集成Impala 3.0.0时所需的依赖库,主要用于处理Hive外部表,这些表的数据存储在HBase之上。 首先,Impala是Cloudera开发的一个高性能、低...
mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d
《Spark 3.2.0 与 Hadoop 3 的集成——无 Hive 版本解析》 Spark,作为大数据处理领域的重要工具,以其高效的内存计算和分布式数据处理能力备受青睐。Spark 3.2.0 是一个重要的版本更新,它在性能、稳定性和功能上...
Apache Hive 是一个基于 Hadoop 的数据仓库工具,用于查询、管理和分析大数据集。Hive 提供了一种SQL-like的语言(称为HQL,Hive Query Language)来操作存储在Hadoop分布式文件系统(HDFS)中的数据,使得非编程...
hadoop-eclipse-plugin-2.7.4.jar和hadoop-eclipse-plugin-2.7.3.jar还有hadoop-eclipse-plugin-2.6.0.jar的插件都在这打包了,都可以用。
hadoop-hue-hive-cookbook TODO:在此处输入食谱说明。 支持的平台 TODO:列出您支持的平台。 属性 钥匙 类型 描述 默认 ['hadoop-hue-hive']['培根'] 布尔值 是否包括培根 真的 用法 hadoop-hue-hive::default ...
Apache Hive 是一个基于 Hadoop 的数据仓库工具,用于查询、管理和处理存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据集。Hive 提供了一种结构化的数据模型和SQL-like 查询语言(HQL,Hive SQL),使得非...
hadoop-eclipse-plugin-3.1.3,eclipse版本为eclipse-jee-2020-03
Hadoop-2.8.0-HA-Hive安装部署与HQL07.hive.mp4