一、hadoop(由于数据量急速增长,hadoop应运而生)
1.是什么?
他是一个java编写的框架
2.hadoop作用?
作用:分布式存储和分布式计算
分布式存储:(多台机器存储,例如云盘存储【分布式】)
HDFS:Hadoop分布式
分布式计算(Mapreduce):一套程序在多台机器中运行(合理分工)
分布式计算的目的:节省计算时间,提高计算效率(TB、PB级别的数据)
要点:不是所有程序都可以进行分布式计算(只有可以分阶段的程序才能进行分布式计算)
3.Apache Hadoop
相关项目:
利用延伸框架进行操作,避免大量的底层代码
Ambar:管理、监控平台
Avro:数据序列化系统(多语言)
Cassandra:不存在单点问题的数据库(不是单点,比如:分布式数据库)
Chukwa:数据收集系统(把不同节点的数据收集起来送到不同的目的)
HBase:支持大量结构化数据存储的数据库
Hive:支持数据汇总和即席查询的数据仓库
Mahout:机器学习和数据挖掘的library
Pig:高层次的数据量语言
Spark:快速的通用的计算引擎
Tez:通用的数据流编程框架
ZooKeeper:一款高性能的分布式服务提供协调服务的框架
4.
第三方公司的hadoop
Cloudera Hadoop
HortonWorks Hadoop
数据操作系统:YARN
5.hadoop核心项目
HDFS:分布式文件系统
Yarn:资源管理平台,计算模型由MapReduce(只有它属于apache)、Storm、Spark
(资源拥堵,竞争的时候就需要管理调度)
如果说yarn是公路,那么计算模型就是各种汽车
6.HDFS的架构
(1)负责数据的分布式存储
(2)主从结构:主节点[namenode]、从节点[datanode]
(3)namenode负责:接收用户的请求,维护文件系统的目录结构,称为命名空间
(4)datanode负责:存储文件
7.Yarn的架构
(1)资源的调度和管理平台
(2)主从结构:主节点[ResourceManager]、从节点[NodeManager]
(3)ResourceManager负责:集群资源的分配、调度
(4)NodeManager负责:单节点资源的管理
8.MapReduce的架构
(1)依赖磁盘io的批处理计算模型
(2)主从结构:主节点[JobTracker]、从节点[TaskTracker]
(3)JobTracker负责:接收客户提交的计算任务、把计算任务分给TaskTracker执行,即任务调度、监控TaskTracker的执行情况
(4)TskTracker负责:执行JobTracker分配的任务
分享到:
相关推荐
- **Linux运行级别详解**:解释Linux的不同运行级别及其含义,以及如何通过chkconfig命令管理服务。 - **nano编辑器**:教授如何使用nano文本编辑器进行文件编辑操作。 - **Linux权限管理**:介绍Linux下的用户管理...
在这个阶段,我们将深入探讨数仓的核心概念、技术选型、数据集成以及性能优化等方面。 1. **数仓概念**:数据仓库(Data Warehouse)是为企业所有级别的决策制定过程,提供所有主题区的集成、非易失和随时间变化的...
在实际的Java项目中,除了核心的源代码,可能还会包含配置文件(如XML或properties文件)、资源文件(如图片、字体、音频)、测试代码(JUnit或其他测试框架)、构建脚本(如Gradle或Maven的pom.xml文件)、日志文件...
在这个项目中,我们将深入探讨这些核心概念。 首先,让我们从文本分类的基础开始。文本分类是NLP中的一个重要任务,它的目标是根据内容将文本自动地归类到预先定义的类别中。在中文文本分类中,由于汉字的复杂性和...
`populationsfx`可能是指一个特定的项目、框架或库,但没有足够的上下文来明确其具体含义。不过,我们可以根据标签和描述来推测一些可能的面试知识点。 首先,让我们谈谈通信技术。在Java中,网络通信通常涉及以下...
- **Hadoop:** 是一个开源的分布式计算框架,主要包括两个核心组件:HDFS(Hadoop Distributed File System,分布式文件系统)和MapReduce(分布式计算模型)。 - **HDFS:** 为海量数据提供了分布式存储服务,将...
2. **Shell脚本编程**:Shell脚本是Linux或Unix系统中常用的自动化工具,项目中的Shell脚本可能用于数据预处理、模型训练、结果可视化等任务,或者用于集成各种ML工具和库。 3. **数据采集与预处理**:在机器学习中...
- **设计与实现爬虫系统**:根据项目需求设计并实现高效的爬虫系统,包括但不限于网页爬取、API调用等。 - **数据抓取与处理**:利用各种技术和工具(如Python的Scrapy框架)从目标网站或平台抓取所需数据,并进行...
".master"常常被用作Git版本控制系统中的主分支名称,表示这是项目的核心或最新的版本。数据2211可能是一个数据分析或数据科学项目的代码仓库,包含用于处理、清洗、分析数据以及生成报告的脚本和工具。 在这样的...
随着大数据技术的发展,Hive作为Hadoop生态系统中的一个重要组成部分,对于企业的数据分析和处理起着核心作用。Facebook、淘宝等大型互联网公司均采用Hive进行大规模的数据分析,尤其是在离线统计领域,Hive的应用...
Zookeeper配置文件中的一些关键参数及其含义如下: - `tickTime`: 基本时间单位,单位毫秒。 - `initLimit`: 初始同步阶段,允许的最大心跳间隔。 - `syncLimit`: 同步连接阶段,允许的最大心跳间隔。 - `dataDir`: ...
这包括数据清洗,去除异常值,处理缺失值,以及数据转换。例如,将分类变量进行独热编码,或者对数值变量进行标准化或归一化,以便于后续的建模和分析。 统计学是数据科学的基础,包括描述性统计和推断性统计。描述...
#### 一、项目概述 **1.1 建设背景** 随着信息技术的发展,银行业务正在经历深刻的变革。传统银行面临着来自互联网金融、金融科技等新兴领域的挑战。为了适应这一变化趋势,提升自身竞争力和服务水平,智慧银行的...
敏捷BI的核心在于利用现代技术手段简化数据处理流程,减少项目实施的时间,并且能够更加灵活地应对市场变化。 #### 1.2 敏捷BI产品 敏捷BI产品通常具有以下特点: - **易用性**:用户界面友好,非技术人员也能轻松...