`

大数据生态圈单节点环境搭建(hadoop、hbase、spark等)

阅读更多

       接触大数据已经有将近三年多时间了,实际项目也有将近两年多,这篇文章写给哪些和我当初刚学大数据时的朋友们,让大伙少走点弯路,千里之行始于足下,所以还是从单节点的大数据集群环境搭建开始,后续我有时间会陆续进行更新新的博客。

 

准备工作

  1. linux机器一台

  2. hadoop-2.4.1 文件

  3. hbase-1.0.0  文件

  4. jdk-8u45-linux-i586.rpm 文件

  5. spark-1.3.1 文件

将所有文件都传到linux系统/usr/local目录下

第一步:安装jdk

切换到jdk-8u45-linux-i586.rpm文件所在目录,执行rpm ivh jdk-8u45-linux-i586.rpm 

第二步:安装hadoop

  1. hadoop文件上传到linux/usr/local目录下



      

     

  2. 切换到root用户下



      

     

  3. 生成ssh秘钥(公钥 id_rsa、私钥 id_rsa.pub)生成的路径为:/root/.ssh,用于无密码登录   ssh-keygen -t rsa



      

  4. 切换到秘钥目录     cd /root/.ssh



      

     

  5. 将公钥追加到authorized_keys文件中:

     cat id_rsa.pub > authorized_keys



      

     

  6. 切换到 config 文件   cd /etc/selinux/



      

  7. 修改config文件(#SELINUX=enforcing 改成 SELINUX=disabled  vim config



      

    修改成功后,直接按ESC键、wq键保存并退出

     

  8. 测试是否可以无密码登录    ssh  localhost



      

    如果出现上面的信息,需要重启下linux。      



      

    重启后ssh localhost 后,出现上面信息表示无密码登陆成功

     

  9. /etc/profile.d目录下设置环境变量 vim hadoop.sh  在空白文件中编写,然后必须重启服务器



      

    因为原来不存在hadoop.sh文件,所以执行vim时会创建一个新的hadoop.sh,然后再新的文件中增加如下配置:

export HADOOP_HOME=/usr/local/hadoop-2.4.1

export PATH=$PATH:$HADOOP_HOME/bin



  



  

在看到目录下新增了一个hadoop.sh文件后,重启服务器

  1. 修改hadoop目录下etc中的core-site.xml yarn-site.xmlhadoop-env.sh 文件,具体内容为jdk目录、localhost换成具体IP地址等

    首先切换到配置目录:cd /usr/local/hadoop-2.4.1/etc/hadoop/



      

    修改core-site.xml文件,将localhost换成IP,保存并退出



      

    修改yarn-site.xml文件,将localhost换成IP,保存并退出



      

    修改hadoop-env.sh文件,修改java_home路径,保存并退出s



      

    在操作过程中如果碰到权限问题 chmod 777 hadoop)目录  也可以是通配符  *.sh

     

  2. 格式化namenode,如果格式化成功后在hadoop目录(/usr/local/hadooptmp/namedata/current/)下会新增一个 hadooptmp目录,并且在hadooptemp目录下会有namedata/current/目录下



      

    hadoop namenode format



      



     

      

    查看/usr/local/hadooptmp/namedata/current/目录下是否新增hadooptmp目录,并且在hadooptemp目录下会有namedata/current/目录



      

  3. 启动hadoop

    切换目录cd /usr/local/hadoop-2.4.1/sbin  执行 ./start-dfs.sh(启动所有./start-all.sh    停止所有./stop-all.sh)



      

  4. 查看启动项如果出现下面jps下面的五项,代表hadoop启动成功



      

  5. hadoopfs目录下上传文件 hadoop fs -put 上传文件完整目录  上传后的文件名称

    例如:hadoop fs -put /usr/local/hadoop-2.4.1/sbin/start-all.sh /hadoopTest.chenfeng



      

  6. 查看hdfs目录   命令: hadoop fs -ls /



      

    可以看到刚刚上传的文件已经在hdfs目录中了

  7. 删除hadoop上的的文件夹 hadoop fs  -rm -r /jeffResult*



      

    可以看到上传的文件已经从hdfs目录中删除了

  8. Web访问地址

    hadoop启动成功后能访问的web地址:  http://192.168.145.132:50070

    yarn启动后访问地址:                http://192.168.145.132:8088/cluster

    hadoop具体语法及用法详见:  http://blog.csdn.net/wf1982/article/details/6215545



      



      

    如果用java程序连接到hadoop的9000端口时出错,注意看slaves文件中的配置,不要用localhost,可以直接用本机IP,也可以在hosts配置一个名称如linux1,然后在这个地方配置成linux1

第三步:安装hbase

  1. hbase文件上传到linux/usr/local目录下



      

  2. 切换到hbase/conf目录下



      

  3. 修改hbase-env.sh文件



      

    主要是修改java_home路径,保存并退出

  4. 修改hbase-site.xml文件,添加如下内容,这个目录系统会自动创建



      

    主要修改了hbase.rootdir和hbase.zokeeper.quorum(可为localhost)配置,保存并推出

  5. 创建hbase 快速启动

    切换到/etc/profile.d目录下,执行vim hbase.sh命令,将下面配置添加到文件中,保存并退出



      

    可以看到此时目录下新增了一个hbase.sh的文件



      

    然后重启服务器,在命令窗口即可执行hbase shell快速启动命令了

  6. 启动hbase



      

    切换到/hbase/bin目录下,执行 ./start-hbase.sh,执行结果见上图

  7. 测试hbase

    在命令窗口执行hbase shell命令,见下图



      

    然后在

     
    输入list命令查看现在hbase中所有的表



     然后执行建表语句创建一个
    chenfeng的表



      

    可以看到此时已经有chenfeng这个表了

     

    至此hbase单机版已经成功了

    master访问地址:http://192.168.11.132:60030/master-status



      

  8. hbase具体命令及用法

    详见 http://abloz.com/hbase/book.html

 

第四步:安装spark

  1. spark放入到/usr/local目录中



      

  2. 切换到sparkconf目录,修改spark-env.sh文件,主要是local_ip   master_ip等项



      

    Vim spark-env.sh 进入编辑状态



      

    修改后保存并退出(注意:如果原来没有local_ip配置项,需要新增)

  3. 启动spark,启动文件放在了sbin目录



      

  4. spark启动完成后查看端口是否已经启动监听  netstat -apn|grep 8080



      

  5. 如果spark启动后虚拟机能访问,但是其他电脑不能访问,可能是防火墙的问题    service iptables status(查看防火墙命令)   service iptables start/stop(启动关闭命令)



      

  6. spark访问路径(weburl):http://192.168.11.132:8080/



      

 

  • 大小: 4.3 KB
  • 大小: 877 Bytes
  • 大小: 11.3 KB
  • 大小: 963 Bytes
  • 大小: 1.9 KB
  • 大小: 1.5 KB
  • 大小: 2.2 KB
  • 大小: 4.4 KB
  • 大小: 2.2 KB
  • 大小: 1.4 KB
  • 大小: 3 KB
  • 大小: 5.2 KB
  • 大小: 10.1 KB
  • 大小: 3.2 KB
  • 大小: 12.2 KB
  • 大小: 2 KB
  • 大小: 974 Bytes
  • 大小: 15.5 KB
  • 大小: 18.5 KB
  • 大小: 4.2 KB
  • 大小: 34.2 KB
  • 大小: 4.2 KB
  • 大小: 4.7 KB
  • 大小: 6.9 KB
  • 大小: 12.2 KB
  • 大小: 58.1 KB
  • 大小: 79.9 KB
  • 大小: 4 KB
  • 大小: 5.7 KB
  • 大小: 5.9 KB
  • 大小: 14.7 KB
  • 大小: 2 KB
  • 大小: 5.3 KB
  • 大小: 13 KB
  • 大小: 18.1 KB
  • 大小: 1 KB
  • 大小: 2.9 KB
  • 大小: 2.9 KB
  • 大小: 3.8 KB
  • 大小: 50.4 KB
  • 大小: 10 KB
  • 大小: 14.9 KB
  • 大小: 53.1 KB
  • 大小: 18.2 KB
  • 大小: 6.1 KB
  • 大小: 4.5 KB
  • 大小: 43.6 KB
分享到:
评论

相关推荐

    浅谈大数据生态圈.pptx

    Hadoop不仅仅是HDFS和MapReduce,还包括一系列配套工具和服务,如Hive(用于SQL查询和数据分析)、Pig(高级数据处理语言)、HBase(NoSQL数据库)、Oozie(工作流调度器)、Zookeeper(协调服务)等。这些组件共同...

    大数据生态圈学习.zip

    大数据生态圈还包括许多其他工具和服务,如Hive(基于Hadoop的数据仓库工具,提供SQL-like查询能力)、Pig(用于大数据分析的高级语言)、Spark(高速数据处理引擎,支持批处理、交互式查询和实时流处理)、YARN...

    hadoop大数据平台技术与应用 --课后习题参考答案.pdf

    Hadoop生态圈的组件及其作用包含数据采集工具Sqoop、数据传输工具Flume、分布式计算框架Tez、Spark、工作流管理系统Oozie、流计算框架Storm、数据分析平台Hive、分布式数据库HBase、数据仓库HDFS和MapReduce的DAG...

    企业级大数据平台CDH详细搭建过程

    CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一款企业级大数据处理平台,它包含了多个开源Apache项目的集成,如Hadoop、Hive、HBase、Spark和Kafka等。CDH提供了统一的管理和监控...

    Hadoop伪分布式及生态圈组件搭建新手指导文档

    以上是 Hadoop 伪分布式环境以及 Hbase 的搭建过程,这个过程对初学者来说至关重要,因为它提供了 Hadoop 生态圈的基本运行环境。Hadoop 是一个开源的大数据处理框架,主要由 HDFS(Hadoop Distributed File System...

    Yonghong业界大数据BI发展分享

    开源大数据生态圈中的技术如Hadoop和Spark等,提供了处理大规模数据集的基础能力,而在商用大数据生态圈中,各供应商提供的解决方案在系统架构、性能优化、数据安全等方面各有千秋。 5. 建设大数据BI系统的思考 在...

    Hadoop生态圈介绍及入门

    - **HBase**:这是一种分布式的、面向列的开源数据库,是Hadoop生态圈中的一个重要组成部分,特别适合于随机读/写操作。 - **Spark**:这是一个专为大规模数据处理而设计的快速通用集群计算系统。与MapReduce相比...

    202x年ambari搭建大数据平台安装手册(专业完整版).pdf

    * Ambari 的作用是创建、管理、监视 Hadoop 的集群,包括 Hadoop 整个生态圈(例如 Hive、HBase、Sqoop、Zookeeper 等)。 * Ambari 现在所支持的平台组件也越来越多,例如流行的 Spark、Storm 等计算框架,以及资源...

    Hadoop和Hbase测试题.pdf

    2. Hadoop的生态圈指的是围绕Hadoop的一系列开源项目,如Hive(数据仓库工具)、Pig(数据分析工具)、HBase(NoSQL数据库)、Spark(快速数据处理引擎)等,这些工具共同构建了一个完整的数据处理生态系统。...

    Hadoop和Hbase测试题.docx

    Hadoop的生态圈是指围绕Hadoop的一系列相关项目,如Hive(SQL-like查询工具),Pig(数据分析平台),Spark(快速通用的大数据处理引擎),Oozie(工作流调度系统),Zookeeper(分布式协调服务)等,它们共同构成了...

    2013年中国数据库大会-43-大数据,商业智能的挑战

    开源大数据生态圈中,Hadoop MapReduce并不适合实时计算,因为它基于节点的拉取机制和任务分配的延迟,导致实时性不足。2010年,谷歌发布了论文《Dremel:InteractiveAnalysisofWebScaleDatasets》,进一步推动了大...

    Spark生态圈介绍

    3. 通用性强:Spark 生态圈包含了 Spark Core、SparkSQL、Spark Streaming、MLLib 和 GraphX 等组件,这些组件分别处理 SparkCore 提供内存计算框架、SparkStreaming 的实时处理应用、Spark SQL 的即席查询、MLlib ...

    手把手教你Hadoop环境搭建、词频统计demo及原理

    Hadoop生态圈包括许多相关的开源项目,如Hive(数据仓库工具)、Pig(数据分析工具)、Spark(快速大数据处理引擎)、HBase(NoSQL数据库)、Zookeeper(分布式协调服务)等,它们共同构成了一个强大的大数据处理...

    Hadoop生态系统基本介绍(60张幻灯片,包含大量图).pptx

    ### Hadoop生态系统基本介绍 #### 一、Hadoop发展历程及各组件概述 ##### 1.1 课程简介 - **课程目标**:本课程旨在帮助学员理解Hadoop的发展历程及其在大数据处理领域的地位,并深入探讨Hadoop生态系统的各个...

    开源hadoop生态圈的简介

    综上所述,Hadoop生态圈是一个涵盖数据存储、处理、分析和管理的全面解决方案,它的开源特性鼓励了社区的创新和发展,为企业提供了处理大数据问题的强大工具。随着技术的不断演进,Hadoop生态圈将持续扩展,为更多...

    大数据工程师部署.docx

    本实训课程设计旨在帮助大数据工程师熟练掌握Hadoop高可用性(HA)部署,以及Hadoop生态圈中其他关键组件的安装与配置,包括Zookeeper、Hive、Hbase、Sqoop、Flume、Spark、Storm、Kafka和MongoDB。以下是详细的知识...

    Hadoop框架和生态圈介绍.docx

    **Hadoop生态圈**:Hadoop生态还包括其他组件,如YARN(资源调度器),HBase(NoSQL数据库),Spark(快速大数据处理框架)等,它们共同构成了一个完整的大数据处理生态系统。 **Hbase**:是一个基于HDFS的分布式、...

    hadoop入门学习文档

    #### Hadoop 生态圈及各组成部分简介 - **HDFS (Hadoop Distributed File System)**:分布式文件系统,允许将数据分布在多个节点上,提高存储容量和数据访问速度。 - **YARN (Yet Another Resource Negotiator)**:...

    Hadoop快速入门

    - **技能要求**:Hadoop领域的职位通常要求掌握Hadoop集群搭建、HDFS原理与使用、MapReduce编程、Hive应用等方面的知识。 - **薪资水平**:大数据领域特别是Hadoop相关岗位的薪资普遍高于传统软件开发岗位。 #### ...

Global site tag (gtag.js) - Google Analytics