`
约巴拿
  • 浏览: 19635 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

Hadoop的学习历程

阅读更多

Hadoop的学习历程

           说是历程,其实也就两个月。但两个月的时间也是有颇多感慨的。

           两个月前,我加入了“大数据处理”小组(十几个人组成的学习小团队)。大数据处理,一听就觉得高大上,想一探究竟,也就加入了这个学习小组。

           既然决定要干,那么肯定要行动起来(Action speak louder than words!)。因此,一加入这个团队,带头人豪翔就给我们交代了接下来要做的事,“当务之急,是要搭建好hadoop平台,因为hadoop就是用来做大数据处理的”。因此,在接下来的一个星期里,主要就耗在这上面了。

             光是搭建这个平台,就出现了不少问题。首先是安装双系统,在win7的基础上再装一个linux系统,因为hadoop的运行环境是在这种操作系统的基础上搭建的。我们统一选择装ubuntu12.04这个系统,然后我们开始在网上搜索相关资料,站在前人的肩膀上来更快地解决这一问题。但新手毕竟是新手,遇到问题总是难免的,光是装这个系统,我就重装了四五次,最后才解决。然后就是安装jdk,因为hadoop就是用java写的。最后才是安装hadoop。在这个过程中,问题层出不穷。有些小组成员用win8系统装出现的问题更多,导致系统崩溃而丢失原系统资料的,系统不能启动而到维修部做处理的.....真是好不无奈。好在我们是一个团队,我们之间的互相讨论、帮助最终使这些问题都被KO掉。之后,我们每个人还专门针对安装出现的问题各自出了一篇博客。建议想搭Hadoop平台的看这篇图文并茂的博客:http://weixiaolu.iteye.com/blog/1401931

这让我体会到了团队的力量,个人的力量是有限的,团队互相学习令我们每个人都进步得更快。这也就我们会每星期要开两次讨论会的原因了。

             hadoop平台搭建好后(这时的我们搭建的是伪分布式,其运行方式和集群分布式一样,只是namenode和datanode是处在同一台机器上),之后的就是要用该平台做大数据的处理。我们这时哪里有什么大数据,因此也就用hadoop自带的Wordcount例子来处理了一些短小的像“hello world”式的几K的小文件一个几M的txt小说文件。由于hadoop是用来处理大数据的,是不适合处理这样的小文件的。因此,我们也只是借此大概了解一下它的运作机制。其实,并没有切实地感受到hadoop真正处理那种几百G以上的大数据的爽快。

             这时的我们大概也就算是知道了有hadoop能处理数据这回事。但对于大数据,我们始终还没能真正地实践。再加上网络的不足,集群式分布式系统始终不能连成。这时,我们又快马加鞭地向hadoop的深层运行机制发起了进攻。研究hadoop的启动脚本,研究hadoop的源代码,研究hadoop的两大主要内容HDFS(Hadoop Distributed File System)和Map/Reduce。这时我们开始从事理论学习工作了,什么一致性哈希(涉及数据结构),什么多线程安全、分布式文件系统(涉及操作系统和网络),什么Map/Reduce编程(涉及java编程),每个涉及到的内容都可以说是一方土地(技术)养一方人(IT工作者),是一个个的大块头。这让我知道了什么叫作以点带面,从Hadoop出发而延伸出了那么多东西。我们向这些东西发起了狂轰乱炸,亦或是它们向我们发动了反击,搞得我们脑袋发胀。不管怎样,对这些理论知识的学习,让我感到学海无涯,知道的越多就会感到自己知道的越少,这大概就是长见识的感觉了。

          是啊,两个月了,已经涨了知识和见识 。接下来,该怎么办呢?IT之路漫长啊,每天更新的知识都学不过来。就拿Hadoop来说吧,早就升级为Yarn了。一个个领域的限制被逐个击破,这当然是好的现象,这表明生产力的进步是如此之快。如何能适应这个信息化时代?如何能站在所处领域的制高点?这的确值得深思。靠!像是扯远了,这似乎是一个企业要思考的。但自己思考一下也无妨。

           对上述问题也提出自己的几个看法:

1、站在巨人的肩膀上(牛顿如是说),前车之鉴,后事之师啊!

2、培养敏锐的眼光,像我现在就很看好云计算(当然看好的多着呢),它将是智慧地球和物联网这两个有远大前程的前沿方向的实现基础。正所谓,“平生不识云计算,徒干IT也枉然!”这就需要我们多看、多听、多交流。

分享到:
评论

相关推荐

    Hadoop的前世今生 英文

    《Hadoop的前世今生》是一份深入探讨Hadoop发展历程的英文文档,旨在揭示这款开源大数据处理框架的起源、发展及现状。...通过学习Hadoop的历史,我们可以更好地理解当前大数据技术的格局,并预见未来可能的趋势。

    hadoop技术全套图书

    《Hadoop技术全套图书》是全面了解和深入学习Hadoop技术的重要资料集合,涵盖了Hadoop在实际应用中的各个层面,包括其发展历程、核心组件、分布式系统原理以及在不同环境下的安装与配置。以下是对这些书籍和教程的...

    \"Hadoop在ebay中的使用历程\"分享总结

    《Hadoop在eBay中的使用历程》是一篇深入探讨大数据处理技术如何在电子商务巨头eBay中发挥关键作用的文章。...对于关注大数据处理和应用的读者来说,这是一份宝贵的学习资料,有助于理解Hadoop的实际应用价值。

    Hadoop官方教案

    在这一课中,我们将了解Hadoop的起源、发展历程以及它在大数据处理中的重要地位。Hadoop是一个开源框架,由Apache软件基金会维护,主要用于存储和处理大规模数据集。它的核心组件包括HDFS(Hadoop分布式文件系统)和...

    Hadoop在雅虎的应用

    本文将深入探讨Hadoop在雅虎的应用历程、关键技术点以及具体的业务场景。 #### 二、Hadoop发展历程及生态系统 **1. 发展历程** - **2004-2005年:**Hadoop最初作为Apache Lucene项目的一部分进行原型开发。 - **...

    hadoop起源

    通过学习“Hadoop的起源”,我们可以更好地理解大数据处理的历史脉络,掌握Hadoop的核心原理,从而在数据分析和挖掘领域发挥出更大的价值。课程大纲中的详细内容将涵盖Hadoop的诞生背景、关键组件的工作原理、生态...

    hadoop1.0.1董西成书籍配套版本

    同时,通过对比不同版本的源码,可以洞察Hadoop的发展历程和改进之处。 总之,董西成书籍配套的hadoop-1.0.1源码对于想要深入了解Hadoop工作原理的学习者来说是一份宝贵的资源。它不仅提供了理论知识的补充,更提供...

    Hadoop权威指南第四版和第二版

    总的来说,《Hadoop权威指南》第二版和第四版都是学习Hadoop及其生态系统的重要参考资料。第二版适合初学者入门,了解Hadoop的基础概念和基本操作;而第四版则更深入地探讨了Hadoop的演进和新的技术趋势,对有经验的...

    haddoop-1.2.1.tar.gz hadoop基础学习之hadoop jar

    总的来说,通过`hadoop-1.2.1.tar.gz`文件,我们可以学习Hadoop的基础知识,包括MapReduce编程模型、HDFS的架构以及YARN的资源调度。虽然Hadoop已经发展到更高的版本,但理解早期版本对于理解其演进历程和当前版本的...

    最新Apache Hadoop-3.0.0 百度云下载

    总结来说,Apache Hadoop 3.0.0版本是Hadoop发展历程中的一个重要里程碑,它的多项改进和新特性显著提升了大数据处理的效率、稳定性和安全性,为企业和开发者提供了更为强大的大数据处理平台。对于想要下载和学习...

    阿里云Hadoop在云上的最佳实践

    首先,阿里云Hadoop发展历程对于理解当前架构和优势至关重要。从2009年阿里开始研究Hadoop,到后续几年的发展,比如2013年双机房国内最大Hadoop集群之一的构建,再到现在提供云服务的能力,都是阿里云Hadoop发展的...

    hadoop-2.2.0 64位

    Hadoop-2.2.0是这个项目的一个重要版本,它在Hadoop的发展历程中扮演着关键的角色。此版本为64位版本,意味着它可以充分利用64位操作系统的内存资源,处理大数据集的能力更加强大。 在Hadoop-2.2.0中,主要包含了...

    Hadoop入门手册

    1. **Hadoop简介**:Hadoop的起源、发展历程以及其在大数据处理中的重要地位。Hadoop的核心设计理念是分布式存储和分布式计算,通过MapReduce和HDFS(Hadoop分布式文件系统)实现对大规模数据集的处理。 2. **...

    hadoop-2.7.1.tar.gz

    这个版本在Hadoop的发展历程中是一个重要的里程碑,因为它引入了许多改进和新特性,旨在提升性能、稳定性和易用性。 1. **Hadoop架构**:Hadoop由两个主要组件构成——Hadoop Distributed File System (HDFS) 和 ...

    大数据技术之Hadoop(入门).doc

    Hadoop是大数据技术的核心组成部分,它是一个由Apache基金会开发的...通过理解Hadoop的基本概念、发展历程以及不同发行版的特点,可以更好地掌握大数据处理的核心技术,为后续深入学习和应用Hadoop打下坚实的基础。

    Hadoop阶段初识学习笔记

    - **发展历程**: - **2004年**:Cutting和Cafarella开始开发Nutch项目,这是一个开源搜索引擎项目。 - **2006年**:在Google发布的关于GFS和MapReduce的研究报告启发下,他们开始着手创建Hadoop项目,目的是为了...

    Hadoop 0.20.1 配置手册-高清pdf文字版

    《Hadoop 0.20.1 配置手册》是一本针对Hadoop早期版本0.20.1的详细配置指南,对于理解和操作Hadoop集群具有重要...同时,理解早期版本的Hadoop也有助于对比分析Hadoop的演进历程,进一步理解当前版本的Hadoop生态系统。

Global site tag (gtag.js) - Google Analytics