`
liyonghui160com
  • 浏览: 775639 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive examples测试

    博客分类:
  • hive
阅读更多

 

 

hive> create table pokes (foo int, bar striing);
OK
Time taken: 0.251 seconds
hive>create table invites (foo INT, bar STRING) partitioned by (ds string);
OK
Time taken: 0.106 seconds
hive>show tables;
OK
invites pokes
Time taken: 0.107 seconds
hive> descripe invites;
OK
foo     int
bar     string
ds      string
Time taken: 0.151 seconds
hive> alter table pokes add columns (new_col int);
OK
Time taken: 0.117 seconds
hive> alter table invites add columns (new_col2 int);
OK
Time taken: 0.152 seconds
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
Copying data from file:/home/hadoop/hadoop-0.19.1/contrib/hive/examples/files/kv1.txt
Loading data to table pokes
OK
Time taken: 0.288 seconds
hive> load data local inpath './examples/files/kv2.txt' overwrite into table invites partition (ds=’2008-08-15′);
Copying data from file:/home/hadoop/hadoop-0.19.1/contrib/hive/examples/files/kv2.txt
Loading data to table invites partition {ds=2008-08-15}
OK
Time taken: 0.524 seconds
hive> LOAD DATA LOCAL INPATH './examples/files/kv3.txt' OVERWRITE INTO TABLE invites PARTITION (ds=’2008-08-08′);
Copying data from file:/home/hadoop/hadoop-0.19.1/contrib/hive/examples/files/kv3.txt
Loading data to table invites partition {ds=2008-08-08}
OK
Time taken: 0.406 seconds

hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a;
Total MapReduce jobs = 1
Starting Job = job_200902261245_0002, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0002
Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job  -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0002
map = 0%,  reduce =0%
map = 50%,  reduce =0%
map = 100%,  reduce =0%
Ended Job = job_200902261245_0002
Moving data to: /tmp/hdfs_out
OK
Time taken: 18.551 seconds

hive> select count(1) from pokes;
Total MapReduce jobs = 2
Number of reducers = 1
In order to change numer of reducers use:
set mapred.reduce.tasks = <number>
Starting Job = job_200902261245_0003, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0003
Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job  -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0003
map = 0%,  reduce =0%
map = 50%,  reduce =0%
map = 100%,  reduce =0%
map = 100%,  reduce =17%
map = 100%,  reduce =100%
Ended Job = job_200902261245_0003
Starting Job = job_200902261245_0004, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0004
Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job  -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0004
map = 0%,  reduce =0%
map = 50%,  reduce =0%
map = 100%,  reduce =0%
map = 100%,  reduce =100%
Ended Job = job_200902261245_0004
OK
500
Time taken: 57.285 seconds

hive> INSERT OVERWRITE DIRECTORY ‘/tmp/hdfs_out’ SELECT a.* FROM invites a;
Total MapReduce jobs = 1
Starting Job = job_200902261245_0005, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0005
Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job  -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0005
map = 0%,  reduce =0%
map = 50%,  reduce =0%
map = 100%,  reduce =0%
Ended Job = job_200902261245_0005
Moving data to: /tmp/hdfs_out
OK
Time taken: 18.349 seconds

hive>  INSERT OVERWRITE DIRECTORY ‘/tmp/reg_5′ SELECT COUNT(1) FROM invites a;
Total MapReduce jobs = 2
Number of reducers = 1
In order to change numer of reducers use:
set mapred.reduce.tasks = <number>
Starting Job = job_200902261245_0006, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0006
Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job  -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0006
map = 0%,  reduce =0%
map = 50%,  reduce =0%
map = 100%,  reduce =0%
map = 100%,  reduce =17%
map = 100%,  reduce =100%
Ended Job = job_200902261245_0006
Starting Job = job_200902261245_0007, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0007
Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job  -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0007
map = 0%,  reduce =0%
map = 50%,  reduce =0%
map = 100%,  reduce =0%
map = 100%,  reduce =17%
map = 100%,  reduce =100%
Ended Job = job_200902261245_0007
Moving data to: /tmp/reg_5
OK
Time taken: 70.956 seconds

 

自定义分隔符

 

create table  user_info (user_id int, cid string, ckid string, username string) 
row format delimited 
fields terminated by '\t'
lines terminated by '\n';
导入数据表的数据格式是:字段之间是tab键分割,行之间是断行。

及要我们的文件内容格式:

100636  100890  c5c86f4cddc15eb7        yyyvybtvt
100612  100865  97cc70d411c18b6f        gyvcycy
100078  100087  ecd6026a15ffddf5        qa000100
分享到:
评论

相关推荐

    hive-0.11.0-bin.tar.gz

    8. **test目录**:包含了Hive的测试用例,用于验证Hive功能的正确性。 在Hive-0.11.0中,引入了一些新特性,如: - 支持ACID(原子性、一致性、隔离性和持久性)事务,这使得Hive更适合于处理需要事务一致性的业务...

    apache-hive-1.2.1-bin.tar.gz

    6. `examples`:可能包含示例数据和查询,供学习和测试用。 Hive的主要特性包括: - **数据仓库**:将结构化的数据文件映射为一张数据库表,提供SQL接口进行查询。 - **批处理**:通过Hadoop的MapReduce实现对大量...

    hive-0.10.0-bin.tar.gz

    描述"一看就明白"可能暗示这个压缩包非常直观,解压后可以直接使用,无需复杂配置,适合初学者或快速测试Hive环境。 标签"hive-0.10.0"进一步确认了这个压缩包与Hive的特定版本相关,这有助于用户识别和管理不同...

    coding417-examples-master.zip

    5. **测试脚本**:为了验证Presto的正确性和性能,可能有JUnit或其他测试框架的测试脚本,这些脚本有助于理解Presto的内部工作原理。 通过这些示例,开发者不仅可以学习到Presto的基础用法,还能深入理解Presto如何...

    PyPI 官网下载 | hive_builder-1.1.3.tar.gz

    6. `tests`目录:包含单元测试和集成测试,用于验证代码的正确性。 7. `docs`目录:可能包含项目的文档,如使用手册、API参考等,通常是用Sphinx或其他文档工具生成的。 8. `examples`目录:示例代码或脚本,帮助...

    big-data-code-examples-master.zip

    3. **Pig或Hive脚本**:Pig和Hive是Hadoop生态系统中的高级查询语言,用于简化大数据查询。这里可能包含了一些使用Pig Latin或HiveQL编写的查询示例。 4. **Spark 示例**:Spark是另一种大数据处理框架,与Hadoop...

    云服务器上搭建大数据伪分布式环境

    安装完成后,可以通过下面的命令测试SSH连接是否正常: ```bash ssh localhost ``` 如果能够成功登录,输入`exit`退出。 ###### 2.2 配置SSH免key登陆 Hadoop作为一个分布式系统,节点之间需要通过SSH协议进行通信...

    apache-log4php-2.0.0-incubating-src.tar.gz

    3. **examples**: 示例代码,展示了如何在实际项目中配置和使用Log4php。 4. **tests**: 测试用例,用于验证代码的正确性和性能,通常包括单元测试和集成测试。 5. **LICENSE**: 许可证文件,说明了Log4php的授权...

    athena-master.zip

    3. **示例**:`examples` 文件夹可能包含如何执行查询、处理结果等的示例代码。 4. **配置文件**:`.cfg` 或 `.json` 文件可能用于设置 AWS 凭证、Athena 工作组信息等。 5. **测试**:`tests` 文件夹可能包含单元...

    assisted-service-crs:在开发Kubernetes自定义资源定义时存储CR的仓库

    这些文件可能在`examples`目录下,包含了创建CRD对象的YAML文件,以及相关的部署和配置说明。 4. **测试**:为了确保CRD的正确性和稳定性,开发者会编写测试用例,测试CRD的创建、更新、删除操作,以及与控制器的...

    tez about hadoop-2.7.1

    - `tez-tests-0.5.4.jar`:包含了Tez的测试用例和库,用于验证和调试Tez组件的功能。 - `tez-yarn-timeline-history-0.5.4.jar`:涉及Tez与YARN的时间线服务集成,用于记录和检索作业的历史信息。 - `tez-runtime...

    Spark开发指南.pdf

    1. **Local**: 单机模式,适用于开发和测试环境。 - **特点**: 使用单线程执行任务,不涉及分布式计算。 - **应用场景**: 开发调试、小规模数据处理。 2. **Spark Standalone**: - **特点**: 自带完整的集群管理...

    hadoop-2.6.0-cdh5.7.0.zip

    CDH是Cloudera公司提供的一个企业级Hadoop发行版,它包含了多个开源大数据处理组件,如Hadoop、Hive、Pig、Oozie等,优化了性能并提供了一致的支持和服务。 描述 "20211018可用,放心下载" 表明该文件在2021年10月...

    Python库 | azure-cli-hdinsight-0.3.4.tar.gz

    这个库使得开发者能够通过Python在Azure HDInsight平台上执行管理和操作任务,如创建、配置和管理Hadoop、Spark或Hive等大数据集群。 描述简单明了,指出这是一个名为“azure-cli-hdinsight-0.3.4.tar.gz”的Python...

    spark1.3源码

    2. `sql`:包含DataFrame和Hive相关的代码,提供了SQL查询和Hive表的支持。 3. `streaming`:实现了Spark的实时流处理功能,包括DStream和各种输入输出源的实现。 4. `mllib`:机器学习库,包含各种算法实现和模型...

    data-science-vm:用于进行数据科学的大数据分析 VM。 它为那些在数据科学的大数据分析方面工作的人提供了一个巨大的启动。 本质上,该项目在虚拟机 (VM) 上自动创建大数据科学家的工具箱。 几分钟后,您就可以开始使用完全配置的数据科学实验室,而不是执行功能开发环境所需的复杂安装和配置。 Data Scientist 的 VM 包括预装的 R、Git、Python、Cloudera、Hadoop、YARN、MRv2、Mahout、MongoDB、Spark、Neo4j 等。 Data Scie

    数据科学虚拟机 ##需要安装以下Gems vagrant插件 install vagrant-omnibus vagrant plugin ...sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 100

    hadoop-book:hadoop-book

    然后输入% mvn package -DskipTests 这将进行完整构建,并在顶级目录(例如hadoop-examples.jar )中创建示例JAR文件。 要从特定章节运行示例,请首先安装该章节所需的组件(例如Hadoop,Pig,Hive等),然后运行该...

    Hadoop_test:Hadoop_示例

    测试此存储库包含的示例代码 Tom White(O'Reilly,2014年)。 ,版和代码也可用。 请注意,各版本之间的章节名称和编号已更改,请参见各版本的。 建立和运行 要构建代码,首先需要安装Maven和Java。 然后输入 % ...

Global site tag (gtag.js) - Google Analytics