- 浏览: 219601 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (114)
- hbase (3)
- akka (7)
- hdfs (6)
- mapreduce (1)
- hive (0)
- zookeeper (8)
- storm (0)
- geese (0)
- leaf (0)
- stormbase (0)
- scala (2)
- oozie (11)
- zeromq (1)
- netty (3)
- mongodb (0)
- sqoop (2)
- flume (3)
- mahout (1)
- redis (0)
- lucene (1)
- solr (1)
- ganglia (3)
- 分布式理论 (2)
- hadoop (42)
- others (14)
- mq (1)
- clojure (3)
- flume ng (1)
- linux (1)
- esper (0)
最新评论
-
javalogo:
[b][i][u]引用[list]
[*][*][flash= ...
什么是Flume -
leibnitz:
what are they meanings
Hadoop Ganglia Metric Item -
di1984HIT:
没用过啊。
akka 介绍-Actor 基础 -
di1984HIT:
写的不错。
Hadoop管理-集群维护 -
developerinit:
很好,基本上介绍了
什么是Flume
转发:http://www.cloudera.com/blog/2010/08/hadoophbase-capacity-planning/
Hadoop和HBase的日益普及,由于其灵活性和巨大的工作已经完成,以简化其安装和使用。这个博客是你第一次在Hadoop / HBase的集群大小提供指导。首先,有显着性差异在Hadoop和HBase使用。 Hadoop的MapReduce是主要的分析工具运行在您的所有数据的分析和提取数据查询,或至少是其中的重要部分(数据是一个复数的基准)。 HBase是更好的实时读/写/修改表格数据的访问。两个应用程序是专为高并发和大数据尺寸。对于一般性的讨论在Hadoop / HBase的架构和差异,请参考Cloudera的公司[https://wiki.cloudera.com/display/DOC/Hadoop+Installation+Documentation+for+Cloudera+Enterprise,http://www .cloudera.com/blog/2010/07/whats-new-in-cdh3-b2-hbase,或拉尔斯·乔治·博客[http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage 。HTML]。我们期待着新版本的汤姆·怀特的Hadoop的书http://www.hadoopbook.com],以及在不久的将来,新的HBase的书。
Hadoop的核心是名为HDFS的文件系统,HDFS的顶部,可用于计算和实际的MapReduce实现。因为我们正在谈论有关数据,第一个关键的参数是我们所有的Hadoop节点上需要多少磁盘空间来存储所有的数据和你要使用的数据存储压缩算法。 MapReduce的组件的一个重要的考虑因素是你需要多少计算能力来处理数据,你要在集群上运行的工作是否是CPU或I / O密集型。一个CPU密集型工作的一个例子是图像处理,而一个I / O密集的工作是一个简单的数据加载或聚集。最后,HBase的主要是内存驱动,我们需要考虑在您的应用程序的数据访问模式和多少内存,你需要这样,HBase的节点不交换数据过于频繁的磁盘。大多数数据写入结束前在memstores磁盘上,他们终于结束了,所以你应该写密集型的工作负载更多的内存一样抓取网络规划。 HBase的一个很好的应用是一个低延迟基于密钥的检索和像加入一个数据仓库事实表的网页抓取或三维数据,半结构化数据的存储,特别是如果数据需要更新实时跟踪,并可以很容易地组合成列的家庭。
这里给出一般Cloudera的硬件建议。本博客将重点放在更详细的容量规划问题
网络
虽然受到网络延迟,吞吐量和带宽经常被人忽略与Hadoop开始工作时,它必将成为一个限制因素群集的增长。在Hadoop集群的每个节点需要能够互相沟通与低延迟和高吞吐量至少要抓住有关数据。此外,如果节点是无法沟通的主节点,主节点会自动认为他们都死了,退市他们,这将导致其余节点上的负载增加。 Hadoop的工作,现成的TCP / IP网络。
网络负载取决于集群中的分析计算的性质。一个简单的应用程序需要大量节点之间的通信进行排序。事实上,TeraSort是一个很好的测试,以检测在集群网络的问题。
一个典型的配置是组织到机架与机架(猛龙)开关1GE热门的节点。机架通常是由一个或多个低延迟的高吞吐量的专用层2万兆核心交换机互连。许多客户都满意〜40节点群集适合一个典型的48端口交换机,可以到一个机架。即使你的所有节点可以放入一个机架,但你打算扩展到超过一个机架,Cloudera的建议,至少有两个机架从一开始去执行正确的做法和网络拓扑脚本。
网络问题可以间接地表现自己。一个良好的实际测试是运行网络密集型应用如terasort,各种10B 100字节的记录(具体参数可以调整簇的大小),您的群集。 100个节点的集群上一个四双核心CPU硬件的运行时间大约应该在10分钟内(我们的客户之一排序1TB 6分钟,76节点群集,这些数字可能与新的12核心CPU的机器)。如果你看到的“坏连接ACK与firstBadLink”,“坏连接ACK”,“主办”或“无法获得块”的IO异常,在重负载下无路线,没准这是由于一个坏的网络。即使一个节点上速度较慢的网络卡可以减缓总作业执行高达3-4倍,因为工作的完成是由最慢的任务限制。这个问题也可以表现为“间歇”重物下自己,但通常正确的网络配置和优化。
网络连接到外部系统是重要的数据加载到HDFS和互操作性。一些公司希望有一个专用的高带宽的网络加载数据(而不是只使用VLAN)。
Hadoop和HBase的日益普及,由于其灵活性和巨大的工作已经完成,以简化其安装和使用。这个博客是你第一次在Hadoop / HBase的集群大小提供指导。首先,有显着性差异在Hadoop和HBase使用。 Hadoop的MapReduce是主要的分析工具运行在您的所有数据的分析和提取数据查询,或至少是其中的重要部分(数据是一个复数的基准)。 HBase是更好的实时读/写/修改表格数据的访问。两个应用程序是专为高并发和大数据尺寸。对于一般性的讨论在Hadoop / HBase的架构和差异,请参考Cloudera的公司[https://wiki.cloudera.com/display/DOC/Hadoop+Installation+Documentation+for+Cloudera+Enterprise,http://www .cloudera.com/blog/2010/07/whats-new-in-cdh3-b2-hbase,或拉尔斯·乔治·博客[http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage 。HTML]。我们期待着新版本的汤姆·怀特的Hadoop的书http://www.hadoopbook.com],以及在不久的将来,新的HBase的书。
Hadoop的核心是名为HDFS的文件系统,HDFS的顶部,可用于计算和实际的MapReduce实现。因为我们正在谈论有关数据,第一个关键的参数是我们所有的Hadoop节点上需要多少磁盘空间来存储所有的数据和你要使用的数据存储压缩算法。 MapReduce的组件的一个重要的考虑因素是你需要多少计算能力来处理数据,你要在集群上运行的工作是否是CPU或I / O密集型。一个CPU密集型工作的一个例子是图像处理,而一个I / O密集的工作是一个简单的数据加载或聚集。最后,HBase的主要是内存驱动,我们需要考虑在您的应用程序的数据访问模式和多少内存,你需要这样,HBase的节点不交换数据过于频繁的磁盘。大多数数据写入结束前在memstores磁盘上,他们终于结束了,所以你应该写密集型的工作负载更多的内存一样抓取网络规划。 HBase的一个很好的应用是一个低延迟基于密钥的检索和像加入一个数据仓库事实表的网页抓取或三维数据,半结构化数据的存储,特别是如果数据需要更新实时跟踪,并可以很容易地组合成列的家庭。
这里给出一般Cloudera的硬件建议。本博客将重点放在更详细的容量规划问题
网络
虽然受到网络延迟,吞吐量和带宽经常被人忽略与Hadoop开始工作时,它必将成为一个限制因素群集的增长。在Hadoop集群的每个节点需要能够互相沟通与低延迟和高吞吐量至少要抓住有关数据。此外,如果节点是无法沟通的主节点,主节点会自动认为他们都死了,退市他们,这将导致其余节点上的负载增加。 Hadoop的工作,现成的TCP / IP网络。
网络负载取决于集群中的分析计算的性质。一个简单的应用程序需要大量节点之间的通信进行排序。事实上,TeraSort是一个很好的测试,以检测在集群网络的问题。
一个典型的配置是组织到机架与机架(猛龙)开关1GE热门的节点。机架通常是由一个或多个低延迟的高吞吐量的专用层2万兆核心交换机互连。许多客户都满意〜40节点群集适合一个典型的48端口交换机,可以到一个机架。即使你的所有节点可以放入一个机架,但你打算扩展到超过一个机架,Cloudera的建议,至少有两个机架从一开始去执行正确的做法和网络拓扑脚本。
网络问题可以间接地表现自己。一个良好的实际测试是运行网络密集型应用如terasort,各种10B 100字节的记录(具体参数可以调整簇的大小),您的群集。 100个节点的集群上一个四双核心CPU硬件的运行时间大约应该在10分钟内(我们的客户之一排序1TB 6分钟,76节点群集,这些数字可能与新的12核心CPU的机器)。如果你看到的“坏连接ACK与firstBadLink”,“坏连接ACK”,“主办”或“无法获得块”的IO异常,在重负载下无路线,没准这是由于一个坏的网络。即使一个节点上速度较慢的网络卡可以减缓总作业执行高达3-4倍,因为工作的完成是由最慢的任务限制。这个问题也可以表现为“间歇”重物下自己,但通常正确的网络配置和优化。
网络连接到外部系统是重要的数据加载到HDFS和互操作性。一些公司希望有一个专用的高带宽的网络加载数据(而不是只使用VLAN)。
发表评论
-
Hadoop TestDFSIO
2013-04-21 21:02 2440@VM [bigdata@bigdata hadoo ... -
Hadoop NNBENCH
2013-04-21 20:46 1633@VM [bigdata@bigdata hadoop]$ ... -
Hadoop 安装手册
2013-04-08 15:47 1201Hadoop 安装手册 软件准备 ... -
What do real life hadoop workloads look like
2012-09-10 15:52 837http://www.cloudera.com/blog/20 ... -
CDH4 HA 切换时间
2012-09-05 15:15 4385blocksize:35M filesize 96M zk-s ... -
CDH4 HA 切换
2012-09-05 10:51 1402HA 切换问题 切换时间太长。。。 copy 0 ... ... -
Hadoop CDh4 Standby HA 启动过程
2012-08-02 11:40 2868根据日志: StandBy NN启动过程 1.获得Active ... -
CDH4 HA test
2012-08-01 14:55 2657场景: NN HA 设置成功,HA切换客户端出现异 ... -
Hadoop TextOutput
2012-07-29 21:08 913TextOutputFormat 分隔符参数: mapredu ... -
Hadoop SteamXMLRecordReader
2012-07-28 23:59 709StreamXmlRecordReader 设置属性 str ... -
Hadoop NLineInputFormat
2012-07-28 23:52 1657NLineInputFormat 重写了splits 设置 ... -
KeyValueTextInputFormat
2012-07-28 23:40 958key/value 分割符 mapreduce.input. ... -
Hadoop 控制split尺寸
2012-07-28 23:08 1342三个参数决定Map的Split尺寸 1.mapred.min ... -
Setting up Disks for Hadoop
2012-07-22 12:13 879Setting up Disks for Hadoop He ... -
Upgrade hadoop need think about it
2012-07-21 17:17 885Compatibility When movin ... -
Hadoop 0.23 config differ from 0.20.205
2012-07-21 17:14 928http://hadoop.apache.org/common ... -
Hadoop hdfs block 状态
2012-07-15 13:37 7271.In Service -
Hadoop 配置不当引起集群不稳
2012-07-05 15:35 1028配置不当内容 资源配置不当:内存、文件句柄数量、磁盘空间 ... -
Hadoop管理-集群维护
2012-07-03 15:27 50071.检查HDFS状态 fsck命令 1)f ... -
Hadoop Ganglia Metric Item
2012-06-27 11:13 2032dfs.FSDirectory.files_delete ...
相关推荐
1. 快速入门指南:这部分内容通常是为新手准备的,介绍如何快速安装和配置Hadoop,并运行一些基本的命令和程序,帮助用户快速上手并体验Hadoop的强大功能。 2. 集群搭建:详细介绍了如何构建和配置Hadoop集群。这...
Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,它是一个高度容错的系统,适合在廉价硬件上运行。HDFS提供了高吞吐量的数据访问,非常适合大规模数据集的应用。HDFS的设计理念是把数据分割成块(block)...
在Hadoop权威指南中,你可以了解到Hadoop的安装与配置,包括集群的搭建、节点管理和故障排查。书中详细阐述了HDFS的工作原理,如块复制、数据节点间的通信以及NameNode的角色。MapReduce部分则解析了作业提交流程、...
书中的实战部分,会介绍如何部署和管理Hadoop集群,包括硬件配置、网络规划、安全设置等。还会讲解数据的导入导出、故障排查、性能调优等操作,帮助读者在实际环境中运用Hadoop。 除此之外,书中也会涉及Hadoop与...
1. **Hadoop的起源与设计原则**:Hadoop是如何从Google的论文中诞生,以及它如何遵循“廉价硬件”的理念实现大规模数据处理。 2. **HDFS详解**:理解HDFS的数据块、副本策略、故障恢复机制以及客户端接口。 3. **...
本书详细介绍了Hadoop的安装、配置和管理,包括集群的搭建、数据的分发以及故障恢复策略。同时,书中涵盖了如何使用Hadoop进行数据处理,例如,如何编写MapReduce程序,以及如何利用Hadoop生态系统中的其他工具,如...
《Hadoop权威指南 中文版》是由Apache Hadoop项目的主要开发者之一汤姆·怀特(Tom White)所著,该书由曾大聃和周傲英翻译成中文。本书详细介绍了大数据处理框架Hadoop的各个方面,适合从新手到专家不同层次的读者...
1. 硬件错误是常态,而非异常情况。HDFS 可能是有成百上千的 server 组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS 的核心架构目标。 2. 跑在 HDFS 上的应用与一般的应用不同,它们...
《Hadoop实战》是由韩冀中翻译的一本详细介绍Hadoop技术的书籍,它深入浅出地探讨了这个大数据处理框架的核心概念、架构以及实际应用。Hadoop是Apache软件基金会的一个开源项目,它为大规模数据处理提供了分布式计算...
1. **Hadoop基础架构**:介绍Hadoop的工作原理、架构设计以及如何安装配置Hadoop环境。 2. **HDFS详解**:深入探讨HDFS的设计理念、内部机制以及高级功能,例如数据块管理、数据副本策略等。 3. **MapReduce编程**:...
通过这本书,读者应能够掌握如何安装和配置Hadoop集群,如何使用MapReduce编程模型进行数据处理,以及如何利用Hadoop生态系统中的工具解决实际问题。此外,读者还能够学习到如何优化和调整Hadoop集群的性能,以适应...
1. **Hadoop基础知识**:涵盖了Hadoop的起源、设计理念以及如何安装和配置Hadoop集群。这部分内容对于初学者尤为重要,能帮助读者建立对Hadoop的初步认识。 2. **HDFS**:详细解释了HDFS的架构,包括NameNode、...
本书《Hadoop实战》由Chuck Lamz著作,并由韩翼翻译。本书深入讲解了Hadoop生态系统中的各种工具和组件,通过实战案例,帮助读者理解和掌握如何利用Hadoop解决实际问题。Hadoop生态系统包括但不限于HDFS、MapReduce...
1. **Hadoop 3.2.1简介** Hadoop 3.2.1是Hadoop生态系统中的一个主要版本,它带来了性能优化、新特性以及对硬件和软件环境的更多支持。其中包括YARN资源调度器的改进、HDFS的高可用性和容错性增强,以及对硬件多样...
- **集成与兼容性**:Chukwa与Hadoop生态系统的紧密集成,使得它能够轻松接入现有Hadoop集群,无需复杂的配置或额外的硬件支持。 #### Chukwa的应用场景 Chukwa在Hadoop集群中的应用极为广泛,主要体现在以下几个...
- **org.apache.hadoop.record**:定义了针对记录的I/O API类以及一个记录描述语言翻译器,用于简化将记录序列化成语言中立的格式。 - **org.apache.hadoop.tools**:包含了一系列常用的工具。 - **org.apache....
2. 数据存储:使用分布式文件系统(如Hadoop HDFS)进行大规模数据存储。 3. 数据处理:利用MapReduce、Spark等并行计算框架对数据进行预处理和分析。 4. 数据清洗:去除重复、错误和不完整数据,提高数据质量。 5. ...
- 根据实际场景提供优化建议,如硬件配置、作业参数调优等。 以上内容是基于E-MapReduce运维指南的通常结构和内容,具体的细节和操作步骤将在实际文档中详细阐述。用户在使用E-MapReduce时,应遵循这些指导,确保...
1. 选择合适的硬件和软件基础设施:根据业务需求选择适当的硬件配置,考虑采用云计算服务以降低成本和提高弹性。 2. 数据集成:设计有效的数据整合策略,确保数据的质量和一致性。 3. 平台架构设计:采用分布式架构...