青涩的大一,以为大学就是早上与伙伴篮球场上挥洒汗水,下午寝室四人开黑,晚上又是三五成群烧烤摊畅饮啤酒。转眼间已经大二下,大学生活已然过半。看着身边,陆仁贾在台上演示精致的app小游戏,宋兵乙在分享各种实习趣事,而故事的主角,却还在思考如何安全的度过今年期末考试。
冲动,确实是一时冲动,看见豪翔跟家园学长在台上讲打算成立云计算小组的计划后,我第一个举起了手,也是在那时候,遇到了今天的小伙伴们,没有他们,我可能不会坚持到现在。
最初的云计算小组,人不多,也没有大神来罩,很难想像连搭建个完全分布式集群都得祈祷网络不出故障的几个年轻人却扬言著书立说,也许多年以后回想起这些年轻时发生的故事才会真正有感觉。开始的时候很艰难,问题一个接一个的出现,有个叫毛书记的不知道如今还在不在安装他的Linux系统(黑一下~),但很欢乐,问题总是会被解决的,每到周六周日,小房间里总是坐满了小伙伴,分享自己这一周来的学习收获,就这样,学习的气氛渐渐浓厚起来。
关于MR
搭建好hadoop平台后,开始各司其职。觉得MR高大上一点,我跟毛书记还有一一就选择这一块儿。虽然群里上传了好多资料,但我还是选择去图书馆(习惯看纸质书,没钱打印),最开始我找了是一本《Ubuntu从入门到精通》,花了将近一周时间把Linux下的命令大概记住了,了解了sed、awk、grep这些文件处理工具,知道了管道的概念,并且加深了对正则表达式的理解,感觉在shell下面操作是没什么问题,然后艰难的做出决定,去网上买了本盗版的《hadoop技术内幕》,并且花重金去打印店把《hadoop实战》3-7章打印出来,只能说收获伴随着喜悦。
随着不断的学习,渐渐对自己的学习能力有了那么点骄傲,觉得分析个MR编程框架不在话下,然后花了半个多月的时间才堪堪搞懂,有点颇受打击。下面是自己对MR输入输出接口的分析,就不再文章中啰嗦了。http://924389979.iteye.com/blog/2059267
http://924389979.iteye.com/blog/2067075。
关于分布式
其实分布式一直不太想搞,因为蓝杰这边网络不太稳定,跟小伙伴们一直搭不起来,后来听说金山那边会提供现成的集群,就不了了之了,对于HDFS 的理解只是大致了解了关于读写的流程,主从节点、块等概念,只能说是纸上谈兵吧http://924389979.iteye.com/blog/2070854。
关于源码分析
以前胡哥在讲课的过程中经常让我们看Java源码,会看但不经常看,导致在程序细节上总是理解不好。本来hadoop源码是要过一遍的,但老是看不下去,翻来覆去,因为要分析MR框架,才把mapreduce包下的源码看了下,可恨当时只是粗略的过了一遍,没有做好笔记,但对于各种逻辑关系以及实现关系的理解有一定的帮助。
关于Shell与Python
老实说钢总的到来给了我很大的压力,遥记得第一次见钢总时很紧张,都没敢上前握手。这次的交流以及以后的任务部署让我们有了新的方向,本来基于Linux下hadoop需要shell脚本的支持,于是拿着拖欠图书馆一个多月不还的《shell编程指南》翻来覆去,刚摆脱菜鸟级准备走向大师级,新任务下来,要求大家掌握Python,当时感觉脸一黑。不过应该不是问题,这几天查看相关博文和书籍,自己装好GUI并试着敲了几个小程序,发现Python确实很有魅力,并且很自由,符合鄙人的口味。
关于参数分析
再来就是胡凯发来的那份数据的分析,本来是一份根本看不懂的东东,发现大家都没兴趣搞,就拿回家把相关参数全部百度了一遍,写了一份自我感觉良好参数分析文档,上传的群里也没有什么反应,好像是不要求搞了什么的吧,好吧,还是看下重播为什么雷霆输球了吧。
<!--EndFragment-->
相关推荐
本文将基于“Hadoop学习总结和源码分析”这一主题,结合提供的文档资源,深入探讨Hadoop的核心组件HDFS(Hadoop Distributed File System)和MapReduce。 首先,我们从“Hadoop学习总结之一:HDFS简介.doc”开始,...
### Hadoop 学习总结 #### 一、HDFS简介 **1.1 数据块(Block)** HDFS(Hadoop Distributed File System)是Hadoop的核心组件之一,它主要用于存储大规模的数据集。HDFS默认的基本存储单位是64MB的数据块。与...
总的来说,"hadoop学习总结1-5"这份资料可能涵盖了从Hadoop的基本概念到实际操作的各个方面,对于想要深入了解和掌握Hadoop的初学者来说,是一份宝贵的参考资料。通过系统学习,可以逐步提升在大数据处理领域的专业...
### Hadoop学习总结 #### HDFS简介 **HDFS(Hadoop Distributed File System)** 是Hadoop项目的核心组件之一,专为处理大型数据集而设计。HDFS通过将数据分割成固定大小的数据块并分布式存储在集群的不同节点上来...
【Hadoop学习总结(面试必备)】 Hadoop作为大数据处理的核心框架,因其分布式存储和计算的能力,成为业界处理海量数据的首选工具。本总结将深入探讨Hadoop的主要组件、工作原理以及在面试中可能遇到的相关知识点。...
hadoop学习总结.ppt
【Hadoop学习总结】 在当前的信息时代,数据量呈现爆炸性增长,来自各种源头的海量数据,如纽约证券交易所的交易数据、Facebook的照片、Ancestry.com的家谱信息、互联网档案馆的数据以及大型强子对撞机产生的科研...
hadoop学习总结包含mr、yarn、hdfs
Hadoop 简介 Hadoop 优点 Hadoop基本架构
### Hadoop学习总结之二:深入理解HDFS读写过程 #### 一、HDFS文件读取流程详解 Hadoop的分布式文件系统(HDFS)是大数据存储与处理的重要基石,其读写机制的设计旨在优化大规模数据集的访问效率与容错性。本文将...
本文将详细解析HDFS的读取和写入过程,基于标题"《Hadoop学习总结之二:HDFS读写过程解析》"和描述中提到的代码分析。 1. **文件的打开** 当客户端想要打开一个HDFS文件时,它会调用`DistributedFileSystem.open`...
### Hadoop运行痕迹追踪详解 #### 一、引言 Hadoop作为一种强大的分布式计算框架,在大数据处理领域扮演着举足轻重的角色。然而,随着其功能的不断...希望本文的内容能够对您在Hadoop的学习和使用过程中有所帮助。
以下是对Hadoop Hive入门学习的详细总结: ### 1. Hive 安装与部署 #### 1.1 环境需求 在开始Hive的安装之前,确保你已经具备了以下基础环境: - **JDK 1.6** 或更高版本:Hive依赖Java运行环境,所以首先需要安装...
### Hadoop MapReduce任务提交与执行流程解析 #### 一、客户端提交任务 在Hadoop MapReduce框架中,客户端的任务提交是整个MapReduce作业启动的关键步骤。这一过程主要由`JobClient`类中的`runJob(JobConf job)`...
HDFS(Hadoop Distributed File System)是 Hadoop 生态系统中的一个核心组件,负责存储和管理大规模数据。下面是 HDFS 的基本概念和架构: 数据块(Block) HDFS 中的基本存储单位是 64M 的数据块。与普通文件系统...
总结来说,HDFS是Hadoop分布式计算框架的核心组件,提供高容错、高吞吐量的数据存储服务。通过数据块、NameNode、DataNode以及Secondary NameNode等机制,实现了文件的分布式存储和高效访问。数据流的过程涉及读文件...
hadoop学习总结 ppt Hadoop云计算技术手册 pdf Openstack的Hadoop整合实践 pdf 大数据时代 你不得不知的Hadoop使用技巧 pdf 理解大数据 企业级 Hadoop 和流数据分析 pdf">Hadoop+Zookeeper+HBase部署指南 pdf Hadoop...
2. **Hadoop学习总结之一:HDFS简介.doc**、**Hadoop学习总结之四:Map-Reduce的过程解析.doc**、**Hadoop学习总结之五:Hadoop的运行痕迹.doc**、**Hadoop学习总结之二:HDFS读写过程解析.doc**:这些文档详细介绍...