`
liujiekasini0312
  • 浏览: 147741 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop推荐

 
阅读更多

好消息:我的Hadoop新书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》已经开始在各大网站销售,购书链接地址:当当购书网址(目前有货)京东购书网址(已卖光)卓越购书网址(已卖光,链接到其他书店)淘宝天猫购买网址(目前有货,注意盗版!)。详情请查看新书官方宣传主页:http://hadoop123.com/

我的联系方式是:http://dongxicheng.org/about/

我的新浪微博是:西成懂,欢迎关注我,很多重要信息将在微博上发布,经常在微博上讨论技术。

——————————————————————————————————————————————————–

在我的技术博客中,推荐以下几个专题:

一、Hadoop-MapReduce(一个离线计算框架)

Hadoop是google分布式计算框架MapReduce与分布式存储系统GFS的开源实现,由分布式计算框架MapReduce和分布式存储系统HDFS(Hadoop Distributed File System)组成,具有高容错性,高扩展性和编程接口简单等特点,现已被大部分互联网公司采用。

本博客一直关注Hadoop的发展动态,并整理了以下几篇文章:

(1) Hadoop框架优化:“Hadoop平台优化综述(一)”, “Hadoop平台优化综述(二)

(2) Hadoop调度器研究:“Hadoop公平调度器解析”,”Hadoop计算能力调度器解析“, “Hadoop的调度器总结”,“如何编写Hadoop调度器

(3) HDFS小文件管理:“HDFS小文件问题及解决方案

(4) Hadoop上编写分布式程序,当前Hadoop主要有三种编程方式,分别为:

[1]Java语言:“如何在Hadoop上编写MapReduce程序”,

[2]Hadoop Streaming:“Hadoop Streaming 编程”,“Hadoop Streaming 高级编程

[3]Hadoop Pipes:“Hadoop pipes设计原理”,”Hadoop pipes编程

——————————————————————————————————————————————————

二、Hadoop-YARN(Hadoop 2.0的一个分支,实际上是一个资源管理系统)

YARN是Hadoop的一个子项目(与MapReduce并列),它实际上是一个资源统一管理系统,可以在上面运行各种计算框架(包括MapReduce、Spark、Storm、MPI等)。

本博客一直关注YARN的发展动态,并整理了以下几篇文章:

(1)准备篇:

[1]“下一代Apache Hadoop MapReduce框架的架构

[2]“Hadoop 2.0中的基本术语解释

[3]“相比于MRv1,YARN带来的优势是什么?

[4]“Hadoop版本选择探讨

[5]“YARN/MR2编程模型介绍

(2) YARN ResourceManager分析:

[1]“YARN/MRv2 Resource Manager深入剖析—RM总体架构

[2]“YARN/MRv2 Resource Manager深入剖析—用户交互相关模块分析

[3]“YARN/MRv2 Resource Manager深入剖析—服务与事件处理器

[4]“YARN/MRv2 Resource Manager深入剖析—AM管理

[5]“YARN/MRv2 Resource Manager深入剖析—NM管理

[6]“YARN/MRv2 Resource Manager深入剖析—RMApp状态机分析

[7]“YARN/MRv2 Resource Manager深入剖析—RMAppAttempt状态机分析

[8]“YARN/MRv2 Resource Manager深入剖析—RMContainer状态机分析

[9]“YARN/MRv2 Resource Manager深入剖析—资源调度器

(3)YARN NodeManager分析:

[1]“YARN/MRv2 Node Manager深入剖析—整体架构

[2]“YARN/MRv2 Node Manager深入剖析—节点健康状况检测

[3]“YARN/MRv2 Node Manager深入剖析—Container启动过程分析

[4]“YARN/MRv2 Node Manager深入剖析—Application状态机分析

[5]“YARN/MRv2 Node Manager深入剖析—Container状态机分析

[6]“YARN/MRv2 Node Manager深入剖析—LocalizedResource状态机分析

(4) YARN MRAppMaster分析:

[1] “YARN/MRv2 MRAppMaster深入剖析—概述”,

[2]“YARN/MRv2 MRAppMaster深入剖析—整体架构”

[3]“YARN/MRv2 MRAppMaster深入剖析—作业生命周期

[4]“YARN/MRv2 MRAppMaster深入剖析—ContainerAllocator分析

[5]“YARN/MRv2 MRAppMaster深入剖析—ContainerLauncher分析

[6]“YARN/MRv2 MRAppMaster深入剖析—推测执行机制

[7]“YARN/MRv2 MRAppMaster深入剖析—作业恢复

(4)YARN应用程序开发及实例:

[1]“YARN/MRv2的Client端代码分析

[2]“如何编写YARN应用程序

[3]“YARN编程实例—distributedshell源码分析

[4]“如何运行YARN中的DistributedShell程序

[5]“YARN编程实例—Unmanaged AM工作原理介绍

(5)YARN的其他方面:

[1]“浅谈Hadoop YARN中的事件驱动机制

[2]“浅谈Borg/YARN/Mesos/Torca/Corona一类系统

[3]“Apache Tez:一个运行在YARN之上支持DAG作业的计算框架

[4]“浅谈Apache Tez中的优化技术

[5]“Apache Tajo:一个运行在YARN上支持SQL的分布式数据仓库

[6]“多集群下资源共享方案介绍

[7]“解析Google集群资源管理系统Omega

————————————————————————————————————————————————–

三、FrameWork On YARN

运行在YARN上的框架,包括MapReduce-On-YARN, Spark-On-YARN, Storm-On-YARN和Tez-On-YARN。

(1)MapReduce-On-YARN:YARN上的离线计算;

(2)Spark-On-YARN:YARN上的内存计算;

(3)Storm-On-YARN:YARN上的实时/流式计算;

(4)Tez-On-YARN:YARN上的DAG计算

————————————————————————————————————————————————-

四、日志分析系统

随着网站的访问量越来越大,日志的分析和挖掘显得尤为重要。本博客也一直在关注开源日志系统,包括:facebook的scribe,apache的chukwa,linkedin的kafka和cloudera的flume等,并整理了以下几篇文章:

(1) 关于Facebook的Scribe:“Scribe日志收集系统介绍

(2) 关于LinkedIn的Kafka:“消息系统Kafka介绍

(3) 关于开源日志系统的比较:“开源日志系统比较

————————————————————————————————————————————————-

五、Apache Thrift

Apache Thrift是Facebook开源的RPC框架,包含序列化/反序列化和RPC两部分,本博客关注Thrift发展,并整理一下几篇文章:

[1]“Thirft框架介绍

[2]“Thrift使用指南

[3]“使用Thrift RPC编写程序

[4]“让Thrift支持双向通信

[5]“浅谈Thrift内部实现原理

—————————————————————————————————————————————————

六、数据结构和算法

本人一直以为做IT,积累基础知识尤其重要,因而本人一直在修炼基本功,即数据结构和算法,并不断整理和总结,并将进度汇总在博文“数据结构和算法汇总”中。

分享到:
评论

相关推荐

    基于Hadoop的商品推荐系统

    基于Hadoop的商品推荐系统,以商品推荐为基础,采集分析和分析用户、商品行为数据,以推荐为最终目标。为用户提供智能的个性化推荐服务。本项目采用Hadoop上HDFS集群,通过MapReduce程序对数据进行处理和分析,最后...

    基于Hadoop图书推荐系统源码+数据库.zip

    基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书...

    Hadoop在大型推荐系统中的应用

    hadoop大型推荐系统的实战和运用,介绍了大概的架构和基本模块。

    Hadoop商品推荐系统-源码.zip

    基于Hadoop的商品推荐系统的设计源码和设计指导书 使用Eclipse的export功能把所有源码打包,然后把打包后的jar文件拷贝到hadoop集群的$HADOOP_HOME/share/hadoop/mapreduce/lib目录下面。这一步相当重要,否则项目...

    基于hadoop商品推荐系统课程设计.zip

    《基于Hadoop的商品推荐系统课程设计》 在大数据时代,推荐系统已经成为电商平台不可或缺的一部分,它能够根据用户的历史行为和偏好,智能地为用户提供个性化的产品或服务推荐,从而提高用户满意度和平台的销售业绩...

    基于Hadoop的商品推荐系统源码+数据库文件+使用教程.zip

    大数据运行: 解压 hadoop推荐算法 zip 搭建Hadoop然后运行,数据已经分析导入mysql,不再赘述 软件架构 大数据架构: 基于物品的协同过滤算法主要有两步: 1、计算物品之间的相似度:可依据物品共现次数、余弦夹角、...

    基于hadoop的好友推荐系统

    【标题】"基于Hadoop的好友推荐系统"揭示了如何利用大数据处理框架Hadoop来构建一个高效、可扩展的社交网络中的好友推荐功能。在现代的社交媒体平台中,好友推荐是提升用户粘性和互动性的重要手段,通过分析用户的...

    hadoop-snappy-0.0.1-SNAPSHOT.tar.gz

    Hadoop支持多种压缩格式,包括Gzip、Bzip2和LZO等,而Snappy因其高性能特性,成为Hadoop推荐的压缩算法之一。在Hadoop中使用Snappy,可以提高MapReduce作业的性能,减少I/O操作,从而提升整体处理速度。 三、Snappy...

    基于Hadoop的电影推荐系统的设计与实现源码(毕业设计)java+Hadoop

    基于Hadoop的电影推荐系统的设计与实现源码(毕业设计)java+Hadoop,使用Hadoop2.7,jdk1.8;分为前台,后台和推荐三个子系统,可直接运行。sql私信

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    Hadoop课程设计,基于Hadoop的好友推荐,在VM虚拟机上搭建CentOS环境(伪分布式)

    【标题】:“Hadoop课程设计,基于Hadoop的好友推荐,在VM虚拟机上搭建CentOS环境(伪分布式)”这一主题涵盖了多个IT领域的关键知识点,包括大数据处理框架Hadoop、虚拟化技术VMware、操作系统CentOS以及数据推荐...

    hadoop.dll & winutils.exe For hadoop-2.7.1

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...

    win环境 hadoop 3.1.0安装包

    - Hadoop在Windows上运行效率较低,推荐在Linux环境下使用Hadoop以获得更好的性能。 通过以上步骤,你可以在Windows环境中成功安装并运行Hadoop 3.1.0。不过,请注意,Windows并非Hadoop的理想运行平台,对于生产...

    hadoop.dll & winutils.exe For hadoop-2.6.0

    如果可能的话,推荐使用Linux环境来运行和管理Hadoop集群,以获得更好的稳定性和性能。 在使用这两个文件时,确保将它们放在Hadoop的安装路径下,并正确配置`HADOOP_HOME`和`PATH`环境变量,以便系统能够找到并正确...

    hadoop2.7.3的hadoop.dll和winutils.exe

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    hadoop2.6 hadoop.dll+winutils.exe

    标题 "hadoop2.6 hadoop.dll+winutils.exe" 提到的是Hadoop 2.6版本中的两个关键...不过,值得注意的是,尽管可以这样做,但在生产环境中,由于Windows的兼容性和性能问题,更推荐使用原生的Linux环境来运行Hadoop。

Global site tag (gtag.js) - Google Analytics