hive> create table pokes (foo int, bar striing); OK Time taken: 0.251 seconds hive>create table invites (foo INT, bar STRING) partitioned by (ds string); OK Time taken: 0.106 seconds hive>show tables; OK invites pokes Time taken: 0.107 seconds hive> descripe invites; OK foo int bar string ds string Time taken: 0.151 seconds hive> alter table pokes add columns (new_col int); OK Time taken: 0.117 seconds hive> alter table invites add columns (new_col2 int); OK Time taken: 0.152 seconds hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes; Copying data from file:/home/hadoop/hadoop-0.19.1/contrib/hive/examples/files/kv1.txt Loading data to table pokes OK Time taken: 0.288 seconds hive> load data local inpath './examples/files/kv2.txt' overwrite into table invites partition (ds=’2008-08-15′); Copying data from file:/home/hadoop/hadoop-0.19.1/contrib/hive/examples/files/kv2.txt Loading data to table invites partition {ds=2008-08-15} OK Time taken: 0.524 seconds hive> LOAD DATA LOCAL INPATH './examples/files/kv3.txt' OVERWRITE INTO TABLE invites PARTITION (ds=’2008-08-08′); Copying data from file:/home/hadoop/hadoop-0.19.1/contrib/hive/examples/files/kv3.txt Loading data to table invites partition {ds=2008-08-08} OK Time taken: 0.406 seconds hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a; Total MapReduce jobs = 1 Starting Job = job_200902261245_0002, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0002 Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0002 map = 0%, reduce =0% map = 50%, reduce =0% map = 100%, reduce =0% Ended Job = job_200902261245_0002 Moving data to: /tmp/hdfs_out OK Time taken: 18.551 seconds hive> select count(1) from pokes; Total MapReduce jobs = 2 Number of reducers = 1 In order to change numer of reducers use: set mapred.reduce.tasks = <number> Starting Job = job_200902261245_0003, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0003 Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0003 map = 0%, reduce =0% map = 50%, reduce =0% map = 100%, reduce =0% map = 100%, reduce =17% map = 100%, reduce =100% Ended Job = job_200902261245_0003 Starting Job = job_200902261245_0004, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0004 Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0004 map = 0%, reduce =0% map = 50%, reduce =0% map = 100%, reduce =0% map = 100%, reduce =100% Ended Job = job_200902261245_0004 OK 500 Time taken: 57.285 seconds hive> INSERT OVERWRITE DIRECTORY ‘/tmp/hdfs_out’ SELECT a.* FROM invites a; Total MapReduce jobs = 1 Starting Job = job_200902261245_0005, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0005 Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0005 map = 0%, reduce =0% map = 50%, reduce =0% map = 100%, reduce =0% Ended Job = job_200902261245_0005 Moving data to: /tmp/hdfs_out OK Time taken: 18.349 seconds hive> INSERT OVERWRITE DIRECTORY ‘/tmp/reg_5′ SELECT COUNT(1) FROM invites a; Total MapReduce jobs = 2 Number of reducers = 1 In order to change numer of reducers use: set mapred.reduce.tasks = <number> Starting Job = job_200902261245_0006, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0006 Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0006 map = 0%, reduce =0% map = 50%, reduce =0% map = 100%, reduce =0% map = 100%, reduce =17% map = 100%, reduce =100% Ended Job = job_200902261245_0006 Starting Job = job_200902261245_0007, Tracking URL = http://gp1:50030/jobdetails.jsp?jobid=job_200902261245_0007 Kill Command = /home/hadoop/hadoop-0.19.1/bin/hadoop job -Dmapred.job.tracker=gp1:9001 -kill job_200902261245_0007 map = 0%, reduce =0% map = 50%, reduce =0% map = 100%, reduce =0% map = 100%, reduce =17% map = 100%, reduce =100% Ended Job = job_200902261245_0007 Moving data to: /tmp/reg_5 OK Time taken: 70.956 seconds
自定义分隔符
create table user_info (user_id int, cid string, ckid string, username string) row format delimited fields terminated by '\t' lines terminated by '\n'; 导入数据表的数据格式是:字段之间是tab键分割,行之间是断行。 及要我们的文件内容格式: 100636 100890 c5c86f4cddc15eb7 yyyvybtvt 100612 100865 97cc70d411c18b6f gyvcycy 100078 100087 ecd6026a15ffddf5 qa000100
相关推荐
8. **test目录**:包含了Hive的测试用例,用于验证Hive功能的正确性。 在Hive-0.11.0中,引入了一些新特性,如: - 支持ACID(原子性、一致性、隔离性和持久性)事务,这使得Hive更适合于处理需要事务一致性的业务...
6. `examples`:可能包含示例数据和查询,供学习和测试用。 Hive的主要特性包括: - **数据仓库**:将结构化的数据文件映射为一张数据库表,提供SQL接口进行查询。 - **批处理**:通过Hadoop的MapReduce实现对大量...
描述"一看就明白"可能暗示这个压缩包非常直观,解压后可以直接使用,无需复杂配置,适合初学者或快速测试Hive环境。 标签"hive-0.10.0"进一步确认了这个压缩包与Hive的特定版本相关,这有助于用户识别和管理不同...
5. **测试脚本**:为了验证Presto的正确性和性能,可能有JUnit或其他测试框架的测试脚本,这些脚本有助于理解Presto的内部工作原理。 通过这些示例,开发者不仅可以学习到Presto的基础用法,还能深入理解Presto如何...
6. `tests`目录:包含单元测试和集成测试,用于验证代码的正确性。 7. `docs`目录:可能包含项目的文档,如使用手册、API参考等,通常是用Sphinx或其他文档工具生成的。 8. `examples`目录:示例代码或脚本,帮助...
3. **Pig或Hive脚本**:Pig和Hive是Hadoop生态系统中的高级查询语言,用于简化大数据查询。这里可能包含了一些使用Pig Latin或HiveQL编写的查询示例。 4. **Spark 示例**:Spark是另一种大数据处理框架,与Hadoop...
安装完成后,可以通过下面的命令测试SSH连接是否正常: ```bash ssh localhost ``` 如果能够成功登录,输入`exit`退出。 ###### 2.2 配置SSH免key登陆 Hadoop作为一个分布式系统,节点之间需要通过SSH协议进行通信...
3. **examples**: 示例代码,展示了如何在实际项目中配置和使用Log4php。 4. **tests**: 测试用例,用于验证代码的正确性和性能,通常包括单元测试和集成测试。 5. **LICENSE**: 许可证文件,说明了Log4php的授权...
3. **示例**:`examples` 文件夹可能包含如何执行查询、处理结果等的示例代码。 4. **配置文件**:`.cfg` 或 `.json` 文件可能用于设置 AWS 凭证、Athena 工作组信息等。 5. **测试**:`tests` 文件夹可能包含单元...
这些文件可能在`examples`目录下,包含了创建CRD对象的YAML文件,以及相关的部署和配置说明。 4. **测试**:为了确保CRD的正确性和稳定性,开发者会编写测试用例,测试CRD的创建、更新、删除操作,以及与控制器的...
4. **Hadoop生态**:除了核心组件,Hadoop还有丰富的生态系统,如HBase(分布式数据库)、Hive(数据仓库工具)、Pig(数据分析工具)、Spark(快速大数据处理框架)等。 在安装Hadoop 2.7.2时,我们需要遵循以下...
- `tez-tests-0.5.4.jar`:包含了Tez的测试用例和库,用于验证和调试Tez组件的功能。 - `tez-yarn-timeline-history-0.5.4.jar`:涉及Tez与YARN的时间线服务集成,用于记录和检索作业的历史信息。 - `tez-runtime...
1. **Local**: 单机模式,适用于开发和测试环境。 - **特点**: 使用单线程执行任务,不涉及分布式计算。 - **应用场景**: 开发调试、小规模数据处理。 2. **Spark Standalone**: - **特点**: 自带完整的集群管理...
CDH是Cloudera公司提供的一个企业级Hadoop发行版,它包含了多个开源大数据处理组件,如Hadoop、Hive、Pig、Oozie等,优化了性能并提供了一致的支持和服务。 描述 "20211018可用,放心下载" 表明该文件在2021年10月...
这个库使得开发者能够通过Python在Azure HDInsight平台上执行管理和操作任务,如创建、配置和管理Hadoop、Spark或Hive等大数据集群。 描述简单明了,指出这是一个名为“azure-cli-hdinsight-0.3.4.tar.gz”的Python...
2. `sql`:包含DataFrame和Hive相关的代码,提供了SQL查询和Hive表的支持。 3. `streaming`:实现了Spark的实时流处理功能,包括DStream和各种输入输出源的实现。 4. `mllib`:机器学习库,包含各种算法实现和模型...
数据科学虚拟机 ##需要安装以下Gems vagrant插件 install vagrant-omnibus vagrant plugin ...sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 100
然后输入% mvn package -DskipTests 这将进行完整构建,并在顶级目录(例如hadoop-examples.jar )中创建示例JAR文件。 要从特定章节运行示例,请首先安装该章节所需的组件(例如Hadoop,Pig,Hive等),然后运行该...