`

hadoop生态圈

阅读更多
分布式文件系统:
HDFS(可计算资源仓库)、mooseFS、fastDFS+nginx(115网盘)、riak、GlusterFS(intel hbase发行版)

分布式爬虫:
Nutch、httpclient

计算框架:
MapReduce:
hadoop的mapreduce(依托于hadoop、适合于100T以上计算)
mongodb

DAG:
hadoop2的Tez框架(hive on hadoop2支持tez框架,TB以上)
spark:(依托于rdd,GB以上,窄依赖最佳)

Graph图计算:
Giraph、graphX(spark)
neo4j(不支持分布式)

MPI:
HAMA
openmpi

流计算:
storm、spark streaming(小批量流)

日志收集:
chukwa
flume
Scribe

数据导入:
Hiho, sqoop

newsql:
Pig, Hive、Phoenix
spark on sql-->前身是shark(处理java程序统计数据困难)
impala、drill

数据处理流:
oozie, Cascading

监控工具:
ganglia,nagos,zabbix,ambari

高一致性:
zookeeper、bookeeper

大表(大磁盘缓存、避免sql等运算出结果)(nosql):
hbase、Cassandra

k,v库(nosql):
redis、memcached、leveldb(SSD磁盘)

文档库(nosql):
couchdb、mongodb

简单的web框架:h5+node.js+mongodb

机器学习:
mahout、mlib(spark)、R(Rhadoop,Rspark)、weka


消息队列:
activemq、rabbitmq、qpid、kafka、hedwig,redis,memcacheq

ETL:
kettle

分布式搜索:
solr(web)、elasticsearch







分享到:
评论
2 楼 andilyliao 2015-12-11  
haha_liu 写道
李导你好,我是达内的学员,春节后在广州报读了达内大数据课程,因此特地上来李导的博客看看 李导的课程讲得非常好,我也深受影响,燃起了我对技术的兴趣和进入互联网公司的欲望。我是大学毕业后才半路学习java的,大学的专业也和计算机完全无关,现在已经28岁了,我的毕业学校今年才刚升上一本。很不幸我目前所在的正是技术能力比较弱的做内部办公系统的传统行业,这是我的第一份it工作,刚做满了一年。上了李导的课后,觉得自己需要提高技术能力,所以开始看李导推荐的书,就算上班多忙,经常加班我都坚持看。我看了java程序性能优化,深入理解java虚拟机,数据结构等等,而且自学了设计模式。linux c也准备看了,因为之前完全没有学过c(我只学过java),所以把这本书押后看。现在的状态是只要不上班,不吃饭的时候,我都在拿着书看,这种看书的热情已经持续了半年。也许是对技术的渴望,也许是不甘心,也许我真的很想成为架构师,所以最近有了跳槽的想法。目前在广州,以我的情况,李导觉得我有可能进入互联网公司么,如果我想往这个方向发展,我今后应该注意和学习些什么,希望听听李导对我的发展的意见和看法,焦急并期待着李导的回复,万分感谢~~~

其实可以去尝试面试一下,看书只能入门,必须到真实的场景解决问题,其实这样的学习速度要更快。
1 楼 haha_liu 2015-07-12  
李导你好,我是达内的学员,春节后在广州报读了达内大数据课程,因此特地上来李导的博客看看 李导的课程讲得非常好,我也深受影响,燃起了我对技术的兴趣和进入互联网公司的欲望。我是大学毕业后才半路学习java的,大学的专业也和计算机完全无关,现在已经28岁了,我的毕业学校今年才刚升上一本。很不幸我目前所在的正是技术能力比较弱的做内部办公系统的传统行业,这是我的第一份it工作,刚做满了一年。上了李导的课后,觉得自己需要提高技术能力,所以开始看李导推荐的书,就算上班多忙,经常加班我都坚持看。我看了java程序性能优化,深入理解java虚拟机,数据结构等等,而且自学了设计模式。linux c也准备看了,因为之前完全没有学过c(我只学过java),所以把这本书押后看。现在的状态是只要不上班,不吃饭的时候,我都在拿着书看,这种看书的热情已经持续了半年。也许是对技术的渴望,也许是不甘心,也许我真的很想成为架构师,所以最近有了跳槽的想法。目前在广州,以我的情况,李导觉得我有可能进入互联网公司么,如果我想往这个方向发展,我今后应该注意和学习些什么,希望听听李导对我的发展的意见和看法,焦急并期待着李导的回复,万分感谢~~~

相关推荐

    hadoop生态圈.pptx

    ### Hadoop生态圈详解 #### 一、海量数据与Hadoop的重要性 随着信息技术的快速发展,海量数据的处理成为了当今社会的一项重大挑战。据资料介绍,中国移动每天处理的数据量达到了惊人的500TB,而像淘宝这样的电商...

    最新Hadoop生态圈开发学习资料——尚硅谷

    在大数据领域,Hadoop生态圈是不可或缺的重要组成部分,它为海量数据的存储、处理和分析提供了高效可靠的解决方案。本文将深入探讨Hadoop生态圈中的关键组件及其功能,帮助你掌握最新的开发学习资料。 首先,我们从...

    Hadoop生态圈

    《深入理解Hadoop生态圈:大数据处理的利器》 大数据,这个概念涵盖了众多技术和工具,而Hadoop生态圈就是其中的关键组成部分,旨在解决大规模数据处理的挑战。就像一个完整的厨房,Hadoop生态圈提供了各种“厨具”...

    hadoop生态圈组件搭建全过程

    hadoop生态圈组件搭建全过程,介绍如何安装一套大数据计算框架的过程。

    Hadoop生态圈介绍及入门

    ### Hadoop生态圈介绍及入门 #### 一、大数据的挑战 在当今数字化时代,随着互联网技术的迅猛发展以及计算能力的显著提升,企业面临着前所未有的数据挑战。这些挑战包括但不限于如何存储、处理和分析海量数据。...

    Hadoop生态圈总体介绍

    Hadoop生态圈是一个围绕开源大数据处理技术Hadoop建立起来的软件框架的集合。Hadoop最初是受到Google的技术启发,其核心设计思想是通过分布式存储和分布式计算来处理大规模数据集。Hadoop生态圈包含多个项目,涉及...

    Hadoop生态圈搭建

    在Ubuntu系统下安装Hadoop圈中的部分软件。 VMWare Ubuntu SSH JDK Hadoop MySQL Hive Hbase Mahout Sqoop Spark Flume Kafka ElasticSearch Redis Phoenix

    spark,hadoop生态圈总结

    Hadoop生态圈基于Hadoop框架,主要由HDFS、MapReduce、YARN等核心组件构成,用于处理大规模数据集。Spark生态圈则基于Spark,提供了一个快速的分布式计算系统,具有内存计算的优势,主要组件包括Spark Core、Spark ...

    深入探究Hadoop生态圈及其应用技术

    本文是关于Hadoop生态圈技术和应用的一系列深度解析,涵盖了Hadoop生态圈的关键技术,如HDFS、YARN、HBase、Hive等。文中详细介绍了Hadoop源码中的InputFormat的工作原理,HBase的Block Cache实现和性能优化策略等...

    第1讲_Hadoop生态圈简介

    ### Hadoop生态圈简介 #### 一、什么是大数据 **1.1 大数据的基本特征** 大数据通常被定义为无法通过传统的数据库工具进行有效处理的数据集。这些数据集具有以下四个关键特征,通常被称为“4V”: - **数据规模...

    开源hadoop生态圈的简介

    【开源Hadoop生态圈的简介】 Hadoop是一个广泛应用于大数据处理领域的开源软件框架,以其可靠性、高效性和可伸缩性著称。它最初由Apache Software Foundation开发,并随着时间的推移,形成了一个庞大的生态系统,...

    基于Hadoop生态圈的选煤数据中台设计.docx

    【基于Hadoop生态圈的选煤数据中台设计】 在当今的大数据时代,高效的数据处理和分析成为企业决策的关键。本文以“基于Hadoop生态圈的选煤数据中台设计”为主题,深入探讨了如何利用Hadoop架构来构建一个适用于选煤...

    Hadoop生态圈常用软件打包rpm spec描述文件

    在Hadoop生态圈中,为了在Linux环境中方便管理和部署组件,如Hadoop、Spark、Alluxio、Ranger等,都会使用RPM打包技术。 `spec`文件是RPM打包的核心,它由一系列的指令和宏组成,用于指导编译、安装和配置过程。...

    毕业设计项目,使用scrapy框架和hadoop生态圈框架实现的招聘信息大数据处理.zip

    该项目是基于Python的Scrapy框架和Hadoop生态圈的毕业设计,旨在实现招聘信息的大数据处理。Scrapy是一个强大的网络爬虫框架,而Hadoop生态圈则提供了高效的数据存储和处理能力。以下将详细介绍这两个关键技术及其在...

    Hadoop专业解决方案-第1章大数据和Hadoop生态圈.docx

    【大数据的挑战】 大数据是指那些超出了传统数据库管理系统处理能力的数据集,通常具有高容量、高速度和多样...通过理解和掌握Hadoop生态圈,企业能够构建可扩展、分布式的数据分析解决方案,提高决策质量和业务效率。

    Hadoop专业解决方案-第一章大数据和Hadoop生态圈.docx

    ### Hadoop专业解决方案—第一章大数据和Hadoop生态圈 #### 一、引言 在当前数字化时代,企业面临着前所未有的数据增长挑战。据估计,仅在最近几年内产生的数据量就超过了之前几十年的总和。例如,Facebook每日...

    基于Spring Boot与Hadoop生态圈构建的大数据平台+源代码+文档说明

    基于Spring Boot与Hadoop生态圈构建的大数据平台+源代码+文档说明 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96...

    Centos 7安装配置Hadoop生态圈CDH5版本

    Centos 7安装配置Hadoop生态圈CDH5版本 其中包括hadoop hbase hive spark 等组件安装

    Hadoop生态圈技术栈(上)

    ### Hadoop生态圈技术栈(上): Hive 数据仓库工具详解 #### 一、Hive 概述及背景 Hive 是一款基于 Hadoop 的数据仓库工具,它的主要作用是将结构化的数据文件映射成表格形式,并提供类似 SQL 的查询功能。这种特性...

Global site tag (gtag.js) - Google Analytics