讲解提纲
Hadoop框架
Hadoop周边框架
Hadoop框架
Master
同时是NameNode,在runtime时会生成JobTracker
Slave
同时是DataNode,在runtime时会生成TaskerTracker
Master与Slave之间通过RPC互相通讯,没隔一定时间进行一次心跳,如果某一个salve在定期时间没有发回心跳,则认为没有存活,进行相应处理
Hadoop 特点
提供高性能运算和分布式文件体统
如何提供高性能运算?
生成Map-Reduce程序
1 客户端提交任务给JobTracker
2 JobTracker与NameNode交谈确定data所在的位置
3 JobTracker确定与data最近的位置的服务器生成TaskTracker
4 JobTracker把任务Task分配给TaskTracker执行计算任务
在TaskTracker执行任务期间会被监视, TaskTracker定时向JobTracker发送心跳,如果没有发送心跳,则会把任务分配给其它TaskTracker,甚至会把宕掉的TaskTracker拉入黑名单。如果执行完毕, JobTracker会更新status,把数据给客户端
分布式文件系统
结构图
HDFS 是 master/slave 结构的. 一个 HDFS 集群 只有一个NameNode, master 管理着分布式文件系统的命名空间和访问规则。一个NameNode 有很多个DataNodes,目前是一个 Cluster可以有2000个左右的DataNode。
一个文件会给分拆成很多 个block,每个block会被replicated到不同的server上,可以用replicationnumber来配置复制的个数,一般来讲是3个
Hadoop周边框架——Hive
HIVE是什么
hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层;提供类似SQL的语言(HQL),通过hadoop-mapreduce完成数据计算;通过HQL语言提供使用者部分传统RDBMS一样的表格查询特性和分布式存储计算特性。
类似的系统有yahoo的pig,google的sawzall,microsoft的DryadLINQ。
操作界面:CLI,Web,Thrift
driver:hive系统将用户操作转化为mapreduce计算的模块(重点)
hadoop:hdfs+mapreduce
metastore:存储元数据(可以用mysql,默认是内存数据库Derby)
CLI(shell)
类似于mysql启动客户端后的执行命令
语言
一般有DDL和DML两种:hive采用DDL方式和少量DML方式,类似sql;
DDL:data definition language(数据定义语言)
{create/alter/drop}{table/view/partition}
例如:
CREATE TABLE logtest1 (timeField STRING, url STRING) PARTITIONED BY (dateField STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';
CREATE EXTERNAL TABLE log_test(timeField string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LOCATION '/log_sunlonghai/test';
和hbase结合的例句:
CREATE TABLE hbase_table_1(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz");
DML:data manipulation language(数据操作语言)
Select * from tablename
例如:
select * from pokes;
会把DML语句转换成hadoop的mapreduce程序,进行计算
Hive 加载数据
LOAD DATA LOCAL INPATH '/opt/hive-0.9.0/examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
把数据从指定文件夹下加载到数据库表,但是不检查文件格式,当进行运算的时候才会检查文件格式
相关推荐
jdk1.8.0_131、apache-zookeeper-3.8.0、hadoop-3.3.2、hbase-2.4.12 mysql5.7.38、mysql jdbc驱动mysql-connector-java-8.0.8-dmr-bin.jar、 apache-hive-3.1.3 2.本文软件均安装在自建的目录/export/server/下 ...
Hadoop+Hbase+Spark+Hive搭建指南 Hadoop是Apache开源的大数据处理框架,它提供了可靠的高效的数据存储和处理能力。Hbase是基于Hadoop的分布式NoSQL数据库,提供了高效的数据存储和检索能力。Spark是基于内存的数据...
在构建Hadoop+HBase+Hive集群的过程中,涉及了多个关键步骤和技术要点,下面将对这些知识点进行详细的解析。 ### 1. 时间同步:NTP配置 在分布式系统中,时间的一致性至关重要,特别是在处理日志、事件排序以及...
在大数据处理领域,Hadoop、HBase和Hive是三个重要的组件,它们分别扮演着不同的角色,共同构建了一个高效、可扩展的数据处理生态系统。本文将详细介绍这三个组件的整合工程和相关文档,帮助读者理解如何在实际项目...
在构建大数据处理环境时,Hadoop、HBase、Spark和Hive是四个核心组件,它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**:Hadoop是Apache...
Hadoop+ZooKeeper+HBase+hive(HQL)安装步骤
### Centos+Hadoop+Hive+HBase 环境搭建详解 #### 一、Centos基础环境搭建 ##### 1.1 软件准备 为了搭建一个基于Centos的操作系统,需要准备以下软件: - **VMware-workstation-full-8.0.4-744019.exe**:这是...
在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...
Docker(Hadoop_3.3.1+HBase_2.4.16+Zookeeper_3.7.1+Hive_3.1.3 )配置文件 搭建集群环境
### hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结 #### 一、Hadoop2.2的安装 **问题导读:** 1. Hadoop的安装需要安装哪些软件? 2. Hadoop与HBase整合需要注意哪些问题? 3. Hive与HBase的...
毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+论文PDF(高分毕设)毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+论文PDF(高分毕设)毕业设计基于hadoop+hive+hbase+...
毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+文档说明(高分毕设)毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+文档说明(高分毕设)毕业设计基于hadoop+hive+...
Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建 Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建是大数据处理和存储的重要组件,本文档将指导用户从零开始搭建一个完整的Hadoop2.2+Zookeeper3.4.5+HBase0.96集群...
毕业设计 基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+详细说明+全部数据资料 高分项目.毕业设计 基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+详细说明+全部数据资料 高分项目. ...
Hadoop生态系统包括Hadoop核心、Hadoop Common、分布式文件系统HDFS、MapReduce框架、并行数据分析语言Pig、列存储NoSQL数据库HBase、分布式协调器Zookeeper、数据仓库Hive以及Hadoop日志分析工具Chukwa等组件。...
基于Flink+ClickHouse构建的分析平台,涉及 Flink1.9.0 、ClickHouse、Hadoop、Hbase、Kafka、Hive、Jmeter、Docker 、HDFS、MapReduce 、Zookeeper 等技术
大数据平台搭建之 Hadoop+Zookeeper+Hbase+Hive 部署指南 大数据平台搭建是指通过集成多种大数据处理技术,构建一个功能强大、可靠、高效的数据处理平台。本文档主要介绍如何部署 Hadoop、Zookeeper、Hbase、Hive ...
从零开始hadoop+zookeeper+hbase+hive集群安装搭建,内附详细配置、测试、常见error等图文,按照文档一步一步搭建肯定能成功。(最好用有道云打开笔记)
spark练习2 hadoop+hive+hbase