`
blueskyfly119
  • 浏览: 2647 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

搞hadoop的总结

 
阅读更多
    从7月19号开始,搞了三个半月hadoop了,也没怎么用心,真正用心做的时间甚至都不超过一周的工作时间,惭愧,愧对信任我的老师,本来打算九月底出论文,到现在hadoop的例子都没运行出来。
    权威指南看的马马虎虎,所有的内容都没有认认真真地理解, 没有逐字逐句地研究,又想起了在本科毕业后在天健做研发,懒惰的想法,随时随地的天马行空,对自己写程序,做研发,真的没信心了,但是,一屋不扫何以扫天下?写程序基本就是个体力活,与智商无关,与情商无关,只与认真与否有关。

    现在在做的是一篇论文的还原,从本质上说就是实现下hadoop的UDF的功能定制,涉及到的模块有 InputFormat, FileSplit, RecordReader,Map和Reduce,现在是完全没有思路,改写也完全没有进入状态,想周末之前拿出来个结果,看来是行不通了

    之前困惑的是没有资料,貌似俞老师也说过这样的话,但是完全是站在不同的高度上说的,我是完全不上心,最基本的都没看明白,jar包中的文档看了十分之一都不到,contribute的那些定制的jar包完全都没明白。那里面就是自定义的UDF, 这就是范例,要研究的就是这些,当然例子中功能很多,看明白,选取我们想要的东西就好了。调度的那几个算法,FIFO(默认),公平调度,capacity 调度,这几个包甚至可以研究一下,(不过原理明白是最重要的吧?)

    想找好工作,而且是有户口的,也就是说互联网的国企,那么就要去做搜索了,搜索的后台,必然是用Linux, C++来做文章的,后台程序的重头戏还是算法,多线程编程,(基础最扎实的人才行)任务太艰巨了;话说不知道淘宝是否有戏,下周去会会淘宝,估计联想和哥那个公司也该有信了。

新的发现,contribute中的用法还有:index中是与Lucene结合,创建索引的测试,其中都涉及到了InputFormat和RecordReader的写法,很好的参照,基本就是按照这些来写了;其他的代码也要好好研究,
benchmark的源代码


   
分享到:
评论

相关推荐

    IT面试-Hadoop总结-云计算

    IT面试-Hadoop总结-云计算 Hadoop是当前最流行的云计算技术之一,它是一种分布式的计算模型,包含了分布式文件系统HDFS和计算模型MapReduce。 一、Hadoop基础知识 1. MapReduce大致流程:MapReduce是Hadoop的核心...

    Hadoop总结资料Hadoop1.0.3

    【Hadoop总结资料Hadoop1.0.3】 Hadoop是一个开源的分布式计算框架,主要由Apache基金会维护。Hadoop1.0.3是该框架的一个早期版本,它包括了Hadoop的核心组件如HDFS(Hadoop Distributed File System)和MapReduce...

    Hadoop学习总结和源码分析

    本文将基于“Hadoop学习总结和源码分析”这一主题,结合提供的文档资源,深入探讨Hadoop的核心组件HDFS(Hadoop Distributed File System)和MapReduce。 首先,我们从“Hadoop学习总结之一:HDFS简介.doc”开始,...

    在ubuntu上搭建hadoop总结

    在Ubuntu上搭建Hadoop是一个常见的任务,特别是在学习和实验分布式计算环境时。本文将详细讲解在Ubuntu 12.04上安装Hadoop伪分布式模式的过程,这将帮助你理解Hadoop的基础设置,并为日后扩展到完全分布式环境打下...

    Hadoop学习总结

    以下是对Hadoop学习的详细总结: **HDFS(Hadoop Distributed File System)简介** HDFS是Hadoop的核心组件之一,是一个高度容错性的分布式文件系统。它被设计成能在普通的硬件上运行,并能够处理大规模的数据集。...

    hadoop总结.md

    hadoop总结.md

    hadoop学习总结2012

    Hadoop 简介 Hadoop 优点 Hadoop基本架构

    hadoop学习总结(面试必备)

    【Hadoop学习总结(面试必备)】 Hadoop作为大数据处理的核心框架,因其分布式存储和计算的能力,成为业界处理海量数据的首选工具。本总结将深入探讨Hadoop的主要组件、工作原理以及在面试中可能遇到的相关知识点。...

    hadoop学习总结1-5

    这份"hadopp学习总结1-5"的资料很可能是针对Hadoop基础到进阶的一系列教程或笔记,旨在帮助学习者掌握这个强大的工具。下面我们将深入探讨Hadoop的相关知识点。 1. **Hadoop简介**: Hadoop是Apache软件基金会的一...

    hadoop技术总结

    【标题】:Hadoop技术总结 【描述】:Hadoop是一种开源框架,专门设计用于处理和存储大量数据,尤其适合初次接触大数据领域的学习者。它以其分布式计算模型、高容错性和可扩展性而闻名,使得企业能够有效地管理和...

    hadoop培训总结

    【Hadoop培训总结】 在当前的信息时代,大数据已经成为企业决策和业务发展的重要驱动力。Hadoop作为大数据处理的首选平台,凭借其强大的可伸缩性、健壮性和高性价比,已经在互联网行业中占据主导地位。本培训课程...

    hadoop学习总结.ppt

    hadoop学习总结.ppt

    \"Hadoop在ebay中的使用历程\"分享总结

    总结来说,《Hadoop在eBay中的使用历程》这篇文章揭示了Hadoop在实际业务场景中的强大功能,展示了大数据技术如何赋能大型企业解决复杂的数据挑战。对于关注大数据处理和应用的读者来说,这是一份宝贵的学习资料,有...

    Hadoop期末考试题总结.doc

    "Hadoop期末考试题总结" 本资源摘要信息主要介绍了Hadoop的相关知识点,涵盖了Hadoop的版本、4V特征、大数据存储、HDFS、MapReduce、SecondaryNameNode、Hadoop shell命令、集群管理工具等方面。 1. Hadoop的最高...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    使用hadoop实现WordCount实验报告.docx

    ### 五、实验总结 本次实验过程中遇到了如Namenode节点缺失和无法访问Web UI等问题,这些问题通过查阅资料和自我学习得以解决。实验不仅加深了对Hadoop环境配置的理解,也提升了使用Hadoop进行分布式编程的能力。...

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    Hadoop 2.4.0新特性总结

    Hadoop 2.4.0新特性总结,紧跟hadoop最新动态

    hadoop2.7.7对应的hadoop.dll,winutils.exe

    总结来说,`hadoop.dll`和`winutils.exe`是Hadoop在Windows环境中的两个关键组件,它们解决了在非Linux平台上运行Hadoop时遇到的兼容性问题。通过将这两个文件放入Hadoop的`bin`目录并正确配置环境变量,用户可以在...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

Global site tag (gtag.js) - Google Analytics