`

一图解说Hadoop的发展历程

 
阅读更多

Hadoop发展历程(2004-2011)

  1. 这一切是如何开始的—Web上庞大的数据!

  2. 使用Nutch抓取Web数据

  3. 要保存Web上庞大的数据——HDFS应运而生

  4. 如何使用这些庞大的数据?

  5. 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析

  6. 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据——fuse,webdav, chukwa, flume, Scribe

  7. Hiho和sqoop将数据加载到HDFS中,关系型数据库也能够加入到Hadoop队伍中

  8. MapReduce编程需要的高级接口——Pig, Hive, Jaql

  9. 具有先进的UI报表功能的BI工具- Intellicus

  10. Map-Reduce处理过程使用的工作流工具及高级语言

  11. 监控、管理hadoop,运行jobs/hive,查看HDFS的高级视图—Hue, karmasphere, eclipse plugin, cacti, ganglia

  12. 支持框架—Avro (进行序列化), Zookeeper (用于协同)

  13. 更多高级接口——Mahout, Elastic map Reduce

  14. 同样可以进行OLTP——Hbase

分享到:
评论

相关推荐

    Hadoop的前世今生 英文

    《Hadoop的前世今生》是一份深入探讨Hadoop发展历程的英文文档,旨在揭示这款开源大数据处理框架的起源、发展及现状。Hadoop,这个在云计算领域具有重要地位的名字,其背后有着丰富的历史和技术演变。 Hadoop最初是...

    超详细解说Hadoop伪分布式搭建1

    【超详细解说Hadoop伪分布式搭建1】 在深入讲解Hadoop伪分布式搭建的过程中,首先要明白,伪分布式模式是在单个节点上模拟分布式环境,适用于学习和测试Hadoop的配置及功能,无需多台机器。以下是详细的搭建步骤: ...

    Hadoop发展简史.pdf

    Hadoop 的发展历程可以分为三个阶段:第一个阶段是 Nutch 项目的开发和早期 Hadoop 的发展(2002-2005);第二个阶段是 Hadoop 从 Nutch 项目中独立出来,并得到雅虎公司的支持和发展(2006-2008);第三个阶段是 ...

    Hadoop大数据平台运维杂记.pptx

    Hadoop大数据平台运维杂记是关于Hadoop大数据平台的运维经验总结,主要涵盖了Hadoop集群的使用情况、安装升级、Cloudera Manager、Hadoop的发展历程、常见事故处理等方面的内容。 一、Hadoop集群使用情况 Hadoop...

    springboot对hadoop增删改查源码及hadoop图片访问

    - 为了解决这个问题,我们通常会在服务器端设置一个Servlet,该Servlet作为图片的代理,负责从Hadoop获取图片数据并将其响应给浏览器。 - Servlet接收到请求后,使用Hadoop的HDFS API读取图片文件,然后通过...

    Linux上Hadoop安装包hadoop-2.7.4.tar.gz

    Hadoop 2.7.4是Hadoop发展过程中的一个重要版本,它提供了许多增强特性和稳定性改进,使得大规模数据处理更加高效和可靠。 `hadoop-2.7.4.tar.gz`包含了构建和运行Hadoop集群所需的所有组件和配置,是学习和实践...

    hadoop2.7.3的hadoop.dll和winutils.exe

    Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`和`winutils.exe`是两个关键组件,它们对于在Windows环境下运行Hadoop至关重要。 ...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    hadoop技术全套图书

    《Hadoop技术全套图书》是全面了解和深入学习Hadoop技术的重要资料集合,涵盖了Hadoop在实际应用中的各个层面,包括其发展历程、核心组件、分布式系统原理以及在不同环境下的安装与配置。以下是对这些书籍和教程的...

    利用ansible 自动 安装Hadoop 集群

    Hadoop作为大数据处理的核心组件,包括HDFS(Hadoop Distributed File System)和MapReduce等模块,构建一个Hadoop集群通常涉及多台服务器的配置、软件安装、服务启动和集群配置。通过Ansible,我们可以简化这个过程...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    Hadoop生态系统基本介绍(60张幻灯片,包含大量图).pptx

    #### 一、Hadoop发展历程及各组件概述 ##### 1.1 课程简介 - **课程目标**:本课程旨在帮助学员理解Hadoop的发展历程及其在大数据处理领域的地位,并深入探讨Hadoop生态系统的各个组件。 ##### 1.2 Hadoop发展...

    Hadoop云计算2.0笔记第一课Hadoop介绍

    Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...

    hadoop.dll & winutils.exe For hadoop-2.7.1

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...

    Hadoop3.1.3.rar

    Hadoop 3.1.3是Hadoop发展的一个重要里程碑,它在3.x系列中引入了多项改进和优化,提高了性能、稳定性和可扩展性。 1. **Hadoop架构**:Hadoop由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 ...

    Hadoop.chm HadoopAPI Hadoop英文版最新API

    Hadoop是Apache Lucene的创始人 Doung Cutting 创建的, Hadoop起源于Apache Nutch, 一个开源的网络搜索引擎,也是Apache的Lucene项目的一部分。Hadoop是创始人Doung Cutting的儿子给一头大象起的名字。 Hadoop的子...

    基于Hadoop平台的图像分类

    hadoop的图像分类的一篇论文,值得学习下。

Global site tag (gtag.js) - Google Analytics