分布式文件系统:
HDFS(可计算资源仓库)、mooseFS、fastDFS+nginx(115网盘)、riak、GlusterFS(intel hbase发行版)
分布式爬虫:
Nutch、httpclient
计算框架:
MapReduce:
hadoop的mapreduce(依托于hadoop、适合于100T以上计算)
mongodb
DAG:
hadoop2的Tez框架(hive on hadoop2支持tez框架,TB以上)
spark:(依托于rdd,GB以上,窄依赖最佳)
Graph图计算:
Giraph、graphX(spark)
neo4j(不支持分布式)
MPI:
HAMA
openmpi
流计算:
storm、spark streaming(小批量流)
日志收集:
chukwa
flume
Scribe
数据导入:
Hiho, sqoop
newsql:
Pig, Hive、Phoenix
spark on sql-->前身是shark(处理java程序统计数据困难)
impala、drill
数据处理流:
oozie, Cascading
监控工具:
ganglia,nagos,zabbix,ambari
高一致性:
zookeeper、bookeeper
大表(大磁盘缓存、避免sql等运算出结果)(nosql):
hbase、Cassandra
k,v库(nosql):
redis、memcached、leveldb(SSD磁盘)
文档库(nosql):
couchdb、mongodb
简单的web框架:h5+node.js+mongodb
机器学习:
mahout、mlib(spark)、R(Rhadoop,Rspark)、weka
消息队列:
activemq、rabbitmq、qpid、kafka、hedwig,redis,memcacheq
ETL:
kettle
分布式搜索:
solr(web)、elasticsearch
分享到:
相关推荐
### Hadoop生态圈详解 #### 一、海量数据与Hadoop的重要性 随着信息技术的快速发展,海量数据的处理成为了当今社会的一项重大挑战。据资料介绍,中国移动每天处理的数据量达到了惊人的500TB,而像淘宝这样的电商...
在大数据领域,Hadoop生态圈是不可或缺的重要组成部分,它为海量数据的存储、处理和分析提供了高效可靠的解决方案。本文将深入探讨Hadoop生态圈中的关键组件及其功能,帮助你掌握最新的开发学习资料。 首先,我们从...
《深入理解Hadoop生态圈:大数据处理的利器》 大数据,这个概念涵盖了众多技术和工具,而Hadoop生态圈就是其中的关键组成部分,旨在解决大规模数据处理的挑战。就像一个完整的厨房,Hadoop生态圈提供了各种“厨具”...
hadoop生态圈组件搭建全过程,介绍如何安装一套大数据计算框架的过程。
### Hadoop生态圈介绍及入门 #### 一、大数据的挑战 在当今数字化时代,随着互联网技术的迅猛发展以及计算能力的显著提升,企业面临着前所未有的数据挑战。这些挑战包括但不限于如何存储、处理和分析海量数据。...
Hadoop生态圈是一个围绕开源大数据处理技术Hadoop建立起来的软件框架的集合。Hadoop最初是受到Google的技术启发,其核心设计思想是通过分布式存储和分布式计算来处理大规模数据集。Hadoop生态圈包含多个项目,涉及...
在Ubuntu系统下安装Hadoop圈中的部分软件。 VMWare Ubuntu SSH JDK Hadoop MySQL Hive Hbase Mahout Sqoop Spark Flume Kafka ElasticSearch Redis Phoenix
Hadoop生态圈基于Hadoop框架,主要由HDFS、MapReduce、YARN等核心组件构成,用于处理大规模数据集。Spark生态圈则基于Spark,提供了一个快速的分布式计算系统,具有内存计算的优势,主要组件包括Spark Core、Spark ...
本文是关于Hadoop生态圈技术和应用的一系列深度解析,涵盖了Hadoop生态圈的关键技术,如HDFS、YARN、HBase、Hive等。文中详细介绍了Hadoop源码中的InputFormat的工作原理,HBase的Block Cache实现和性能优化策略等...
### Hadoop生态圈简介 #### 一、什么是大数据 **1.1 大数据的基本特征** 大数据通常被定义为无法通过传统的数据库工具进行有效处理的数据集。这些数据集具有以下四个关键特征,通常被称为“4V”: - **数据规模...
【开源Hadoop生态圈的简介】 Hadoop是一个广泛应用于大数据处理领域的开源软件框架,以其可靠性、高效性和可伸缩性著称。它最初由Apache Software Foundation开发,并随着时间的推移,形成了一个庞大的生态系统,...
【基于Hadoop生态圈的选煤数据中台设计】 在当今的大数据时代,高效的数据处理和分析成为企业决策的关键。本文以“基于Hadoop生态圈的选煤数据中台设计”为主题,深入探讨了如何利用Hadoop架构来构建一个适用于选煤...
在Hadoop生态圈中,为了在Linux环境中方便管理和部署组件,如Hadoop、Spark、Alluxio、Ranger等,都会使用RPM打包技术。 `spec`文件是RPM打包的核心,它由一系列的指令和宏组成,用于指导编译、安装和配置过程。...
该项目是基于Python的Scrapy框架和Hadoop生态圈的毕业设计,旨在实现招聘信息的大数据处理。Scrapy是一个强大的网络爬虫框架,而Hadoop生态圈则提供了高效的数据存储和处理能力。以下将详细介绍这两个关键技术及其在...
【大数据的挑战】 大数据是指那些超出了传统数据库管理系统处理能力的数据集,通常具有高容量、高速度和多样...通过理解和掌握Hadoop生态圈,企业能够构建可扩展、分布式的数据分析解决方案,提高决策质量和业务效率。
### Hadoop专业解决方案—第一章大数据和Hadoop生态圈 #### 一、引言 在当前数字化时代,企业面临着前所未有的数据增长挑战。据估计,仅在最近几年内产生的数据量就超过了之前几十年的总和。例如,Facebook每日...
基于Spring Boot与Hadoop生态圈构建的大数据平台+源代码+文档说明 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96...
Centos 7安装配置Hadoop生态圈CDH5版本 其中包括hadoop hbase hive spark 等组件安装
### Hadoop生态圈技术栈(上): Hive 数据仓库工具详解 #### 一、Hive 概述及背景 Hive 是一款基于 Hadoop 的数据仓库工具,它的主要作用是将结构化的数据文件映射成表格形式,并提供类似 SQL 的查询功能。这种特性...