`
85977328
  • 浏览: 1899026 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop经典系列(十一)性能分析实验初步

 
阅读更多
【试验目的】
本试验目的是为了总结hadoop相关参数优化对性能的影响。

【试验环境】
硬件环境
本次试验用机4台,配置一致:
CPU: Intel(R) Xeon(R) CPU  E5620  @ 2.40GHz * 16
内存: MemTotal:       32867608 kB 64bit
linux版本 CentOS release 6.2 (Final)
内核版本 2.6.32-220.el6.x86_64
硬盘 Model: IBM ServeRAID M5015 (scsi)
Disk /dev/sda: 2997GB
Sector size (logical/physical): 512B/512B

软件环境:
JDK: jdk1.6.0_45
Hadoop: hadoop-1.2.1

【试验数据和程序】
试验所用程序为WordCount计数程序(统计每个字母出现的次数),数据源是“ABCDEABC…”的循环

【试验结果统计和总结】
总结相同的配置,此次试验hadoop中备份数均为1份


导入hdfs的数据分析

可以看出在数据导入环节,系能基本呈现线性。


参数优化结果(所使用数据均为10G)



遗留的问题和今后研究的方向
1.本次试验由于机器有限,所以在大量加入机器后性能提升是否线性有待验证。
2.本次试验的数据混乱度不高,有待加入真实数据进行验证
3.本次试验实在hadoop1.0的环境中做的,有待在2.0中试验。


试验结果总结
对hadoop性能优化性能提高的因素排列如下(按照优化幅度从高到低):
1.加入combiner
2.增大map和reduce的槽数
3.加大dateNode上jvm参数
4.加机器
5.改变堆的大小
6.IntWriteAble改成VIntWriteAble
7.SecondeNameNode与NameNode分离
8.关闭noatime




作者简介
昵称:澳洲鸟,猫头哥
姓名:朴海林
QQ:85977328
MSN:6301655@163.com
本文的研究,离不开《至高天》朋友们的支持
猫头哥:http://phl.iteye.com/
根根:http://blog.csdn.net/suileisl
芝麻的奋斗:http://sesame84.iteye.com/
wan560:http://blog.csdn.net/wan560/
terrily:http://terrily.iteye.com/
  • 大小: 14.9 KB
  • 大小: 156.7 KB
分享到:
评论

相关推荐

    hadoop hbase性能报告(英文)

    ### Hadoop HBase性能报告分析 #### 引言与研究目标 本项目旨在评估Hadoop与HBase在实际集群环境中的性能表现。具体目标包括: 1. 在节点组成的集群上安装并配置Hadoop与HBase。 2. 研究Hadoop与HBase API,并...

    实验手册:搜狗搜索日志分析系统实现-Hadoop2.0-v1.2-noted

    ### 实验手册:搜狗搜索日志分析系统实现-Hadoop2.0-v1.2-noted #### 一、数据预处理(Linux环境) 在进行任何数据分析之前,数据预处理是一个非常重要的步骤,它能够确保数据的质量,为后续的数据分析奠定良好的...

    Hadoop下的分布式搜索引擎

    本文通过对Hadoop系统结构的深入分析,并结合Map/Reduce编程模型,设计了一种基于Hadoop的高性能、高可靠性和可扩展性强的分布式搜索引擎。 #### 二、Hadoop系统结构分析 ##### 2.1 Map/Reduce 编程模型 Map/...

    Hadoop集群和单机数据处理的耗时对比实验

    ### Hadoop集群与单机数据处理耗时对比分析 #### 引言 随着互联网的飞速发展,数据的爆炸式增长已成为常态,这对数据处理能力提出了前所未有的挑战。传统单机处理方式在面对大规模数据集时显得力不从心,处理效率...

    Hadoop3.1.3安装和单机/伪分布式配置

    - **适用场景**:适合于小型测试环境,能够模拟部分分布式特性,进行初步的功能性和性能测试。 #### 三、主要仪器设备、试剂或材料 - **操作系统**:Ubuntu 18.04 64位。 - **软件工具**:Hadoop 3.1.3。 - **辅助...

    Linux_RedHat、CentOS上搭建Hadoop集群

    2. **伪分布式模式**:在单节点上模拟分布式环境,每个Hadoop守护进程(如NameNode、DataNode、TaskTracker等)都是独立的Java进程,适合初步体验和测试分布式功能。 3. **完全分布式模式**:实际生产环境中的模式...

    基于Hadoop的网络流量分流并行化设计与实现

    ### 基于Hadoop的网络流量分流并行化设计与实现 #### 摘要概览 本文探讨了一个基于Hadoop平台的网络流量分流并行处理系统的设计与实现。随着互联网应用的多样化和流量的增长,传统的网络流量分类方法已难以满足...

    中国移动研究院的Hadoop相关研究工作

    为了提高Hadoop系统的稳定性和性能,研究院还进行了一系列的系统改进与完善工作。这些改进包括但不限于对Hadoop核心组件MapReduce的优化、分布式文件系统HDFS的稳定性增强等。此外,还进行了多轮次的测试与验证,...

    Starred_Paper_Hadoop_Spark.docx

    ### Hadoop与Spark性能对比分析 #### 摘要与背景介绍 本文旨在对Hadoop与Spark两大主流大数据处理框架的性能进行深入对比分析。通过选取具有代表性的应用案例——迭代计算(WordCount Sorted By Key, WordCount ...

    高性能计算与云计算实验三报告.docx

    实验不仅要求参与者熟悉分布式高性能计算平台Hadoop的基本搭建步骤,还需要他们能够运用Map/Reduce编写并行计算程序,并理解这类程序在Hadoop平台上的运行与调试机制。 #### 实验具体内容 - **实验要求**: - ...

    基于Hadoop的网络异常流量分布式检测研究.docx

    为了验证所提出方法的有效性,本研究构建了一个实验环境,并设计了一系列实验来评估不同参数设置下系统的性能表现。实验环境基于多台服务器组成的Hadoop集群,模拟了真实世界中的网络环境。通过对收集到的大规模网络...

    云计算Hadoop平台的异常数据检测算法研究.pdf

    在云计算Hadoop平台的异常数据检测算法研究中,数据采集筛查模组负责收集和初步分析数据流,识别出可能的异常数据;算法逻辑补偿模组用于校正数据采集过程中可能出现的偏差;动态反馈模组则根据实时数据和反馈信息...

    基于Hadoop的并行化协同过滤推荐算法研究.docx

    - **算法性能评价与对比分析**:通过一系列实验评估并行化算法的性能,包括计算时间、推荐准确性等指标,并与传统算法进行对比分析。 #### 四、并行化算法设计与优化 并行化算法设计与优化是本研究的核心部分。...

    基于Hadoop平台的安全日志聚类挖掘算法研究与应用.docx

    为了验证所提算法的有效性,研究者设计了一系列实验。通过对比不同算法在相同数据集上的表现,评估了新算法在准确率、召回率、F1分数等方面的性能指标。此外,还针对算法在实际部署过程中遇到的问题进行了针对性优化...

    基于hadoophbase实现,集成单机模式机器学习算法以及分布式机器学习算法.zip

    - 特点:开发速度快,调试方便,适合小规模数据或初步实验。 5. 分布式机器学习: - Mahout:Apache Mahout是基于Hadoop的机器学习库,提供多种分布式算法,如协同过滤、K-means等。 - Spark MLlib:Spark的机器...

    中原工学院软件学院大数据实验室建设方案

    1. 提供高效能计算平台:实验室应具备处理大规模数据的能力,通过高性能物理服务器和存储设备,支持大数据处理框架如Hadoop的运行。 2. 建立完整的实验教学体系:设计符合教学需求的课程体系,覆盖大数据的基础理论...

    2013最新数据库实验报告完整版

    8. 技术展望:报告可能还会讨论当时数据库领域的最新趋势和技术,比如云数据库、大数据处理技术(如Hadoop和Spark)以及数据仓库和数据挖掘的初步介绍。 9. 淘宝省钱网.url:这个URL可能是与数据库技术相关的在线...

    KNN分类算法的MapReduce并行化实现1

    实验结果显示,采用MapReduce并行化的KNN算法在Hadoop集群上运行,相比于传统的单机实现,具有更好的加速比和扩展性。这意味着随着硬件资源的增加,处理速度能够线性提升,更有效地应对大数据挑战。 总结来说,KNN...

Global site tag (gtag.js) - Google Analytics