接触大数据已经有将近三年多时间了,实际项目也有将近两年多,这篇文章写给哪些和我当初刚学大数据时的朋友们,让大伙少走点弯路,千里之行始于足下,所以还是从单节点的大数据集群环境搭建开始,后续我有时间会陆续进行更新新的博客。
准备工作
-
linux机器一台
-
hadoop-2.4.1 文件
-
hbase-1.0.0 文件
-
jdk-8u45-linux-i586.rpm 文件
-
spark-1.3.1 文件
将所有文件都传到linux系统/usr/local目录下
第一步:安装jdk
切换到jdk-8u45-linux-i586.rpm文件所在目录,执行rpm –ivh jdk-8u45-linux-i586.rpm
第二步:安装hadoop
-
将hadoop文件上传到linux的/usr/local目录下
-
切换到root用户下
-
生成ssh秘钥(公钥 id_rsa、私钥 id_rsa.pub)生成的路径为:/root/.ssh,用于无密码登录 ssh-keygen -t rsa
-
切换到秘钥目录 cd /root/.ssh
-
将公钥追加到authorized_keys文件中:
cat id_rsa.pub > authorized_keys
-
切换到 config 文件 cd /etc/selinux/
-
修改config文件(#SELINUX=enforcing 改成 SELINUX=disabled) vim config
修改成功后,直接按ESC键、wq键保存并退出
-
测试是否可以无密码登录 ssh localhost
如果出现上面的信息,需要重启下linux。
重启后ssh localhost 后,出现上面信息表示无密码登陆成功
-
在/etc/profile.d目录下设置环境变量 vim hadoop.sh 在空白文件中编写,然后必须重启服务器
因为原来不存在hadoop.sh文件,所以执行vim时会创建一个新的hadoop.sh,然后再新的文件中增加如下配置:
export HADOOP_HOME=/usr/local/hadoop-2.4.1
export PATH=$PATH:$HADOOP_HOME/bin
在看到目录下新增了一个hadoop.sh文件后,重启服务器
-
修改hadoop目录下etc中的core-site.xml 、yarn-site.xml、hadoop-env.sh 文件,具体内容为jdk目录、localhost换成具体IP地址等
首先切换到配置目录:cd /usr/local/hadoop-2.4.1/etc/hadoop/
修改core-site.xml文件,将localhost换成IP,保存并退出
修改yarn-site.xml文件,将localhost换成IP,保存并退出
修改hadoop-env.sh文件,修改java_home路径,保存并退出s
在操作过程中如果碰到权限问题 chmod 777 (hadoop)目录 也可以是通配符 *.sh
-
格式化namenode,如果格式化成功后在hadoop目录(/usr/local/hadooptmp/namedata/current/)下会新增一个 hadooptmp目录,并且在hadooptemp目录下会有namedata/current/目录下
hadoop namenode –format
查看/usr/local/hadooptmp/namedata/current/目录下是否新增hadooptmp目录,并且在hadooptemp目录下会有namedata/current/目录
-
启动hadoop
切换目录cd /usr/local/hadoop-2.4.1/sbin 执行 ./start-dfs.sh(启动所有./start-all.sh 停止所有./stop-all.sh)
-
查看启动项,如果出现下面jps下面的五项,代表hadoop启动成功
-
往hadoop的fs目录下上传文件 hadoop fs -put 上传文件完整目录 上传后的文件名称
例如:hadoop fs -put /usr/local/hadoop-2.4.1/sbin/start-all.sh /hadoopTest.chenfeng
-
查看hdfs目录 命令: hadoop fs -ls /
可以看到刚刚上传的文件已经在hdfs目录中了
-
删除hadoop上的的文件夹 hadoop fs -rm -r /jeffResult*
可以看到上传的文件已经从hdfs目录中删除了
-
Web访问地址
hadoop启动成功后能访问的web地址: http://192.168.145.132:50070
yarn启动后访问地址: http://192.168.145.132:8088/cluster
hadoop具体语法及用法详见: http://blog.csdn.net/wf1982/article/details/6215545
如果用java程序连接到hadoop的9000端口时出错,注意看slaves文件中的配置,不要用localhost,可以直接用本机IP,也可以在hosts配置一个名称如linux1,然后在这个地方配置成linux1
第三步:安装hbase
-
将hbase文件上传到linux的/usr/local目录下
-
切换到hbase/conf目录下
-
修改hbase-env.sh文件
主要是修改java_home路径,保存并退出
-
修改hbase-site.xml文件,添加如下内容,这个目录系统会自动创建
主要修改了hbase.rootdir和hbase.zokeeper.quorum(可为localhost)配置,保存并推出
-
创建hbase 快速启动
切换到/etc/profile.d目录下,执行vim hbase.sh命令,将下面配置添加到文件中,保存并退出
可以看到此时目录下新增了一个hbase.sh的文件
然后重启服务器,在命令窗口即可执行hbase shell快速启动命令了
-
启动hbase
切换到/hbase/bin目录下,执行 ./start-hbase.sh,执行结果见上图
-
测试hbase
在命令窗口执行hbase shell命令,见下图
然后在
输入list命令查看现在hbase中所有的表
然后执行建表语句创建一个chenfeng的表
可以看到此时已经有chenfeng这个表了
至此hbase单机版已经成功了
master访问地址:http://192.168.11.132:60030/master-status
-
hbase具体命令及用法
第四步:安装spark
-
将spark放入到/usr/local目录中
-
切换到spark的conf目录,修改spark-env.sh文件,主要是local_ip master_ip等项
Vim spark-env.sh 进入编辑状态
修改后保存并退出(注意:如果原来没有local_ip配置项,需要新增)
-
启动spark,启动文件放在了sbin目录
-
spark启动完成后查看端口是否已经启动监听 netstat -apn|grep 8080
-
如果spark启动后虚拟机能访问,但是其他电脑不能访问,可能是防火墙的问题 service iptables status(查看防火墙命令) service iptables start/stop(启动关闭命令)
-
spark访问路径(weburl):http://192.168.11.132:8080/
相关推荐
Hadoop不仅仅是HDFS和MapReduce,还包括一系列配套工具和服务,如Hive(用于SQL查询和数据分析)、Pig(高级数据处理语言)、HBase(NoSQL数据库)、Oozie(工作流调度器)、Zookeeper(协调服务)等。这些组件共同...
大数据生态圈还包括许多其他工具和服务,如Hive(基于Hadoop的数据仓库工具,提供SQL-like查询能力)、Pig(用于大数据分析的高级语言)、Spark(高速数据处理引擎,支持批处理、交互式查询和实时流处理)、YARN...
Hadoop生态圈的组件及其作用包含数据采集工具Sqoop、数据传输工具Flume、分布式计算框架Tez、Spark、工作流管理系统Oozie、流计算框架Storm、数据分析平台Hive、分布式数据库HBase、数据仓库HDFS和MapReduce的DAG...
CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一款企业级大数据处理平台,它包含了多个开源Apache项目的集成,如Hadoop、Hive、HBase、Spark和Kafka等。CDH提供了统一的管理和监控...
以上是 Hadoop 伪分布式环境以及 Hbase 的搭建过程,这个过程对初学者来说至关重要,因为它提供了 Hadoop 生态圈的基本运行环境。Hadoop 是一个开源的大数据处理框架,主要由 HDFS(Hadoop Distributed File System...
开源大数据生态圈中的技术如Hadoop和Spark等,提供了处理大规模数据集的基础能力,而在商用大数据生态圈中,各供应商提供的解决方案在系统架构、性能优化、数据安全等方面各有千秋。 5. 建设大数据BI系统的思考 在...
- **HBase**:这是一种分布式的、面向列的开源数据库,是Hadoop生态圈中的一个重要组成部分,特别适合于随机读/写操作。 - **Spark**:这是一个专为大规模数据处理而设计的快速通用集群计算系统。与MapReduce相比...
* Ambari 的作用是创建、管理、监视 Hadoop 的集群,包括 Hadoop 整个生态圈(例如 Hive、HBase、Sqoop、Zookeeper 等)。 * Ambari 现在所支持的平台组件也越来越多,例如流行的 Spark、Storm 等计算框架,以及资源...
2. Hadoop的生态圈指的是围绕Hadoop的一系列开源项目,如Hive(数据仓库工具)、Pig(数据分析工具)、HBase(NoSQL数据库)、Spark(快速数据处理引擎)等,这些工具共同构建了一个完整的数据处理生态系统。...
Hadoop的生态圈是指围绕Hadoop的一系列相关项目,如Hive(SQL-like查询工具),Pig(数据分析平台),Spark(快速通用的大数据处理引擎),Oozie(工作流调度系统),Zookeeper(分布式协调服务)等,它们共同构成了...
开源大数据生态圈中,Hadoop MapReduce并不适合实时计算,因为它基于节点的拉取机制和任务分配的延迟,导致实时性不足。2010年,谷歌发布了论文《Dremel:InteractiveAnalysisofWebScaleDatasets》,进一步推动了大...
3. 通用性强:Spark 生态圈包含了 Spark Core、SparkSQL、Spark Streaming、MLLib 和 GraphX 等组件,这些组件分别处理 SparkCore 提供内存计算框架、SparkStreaming 的实时处理应用、Spark SQL 的即席查询、MLlib ...
Hadoop生态圈包括许多相关的开源项目,如Hive(数据仓库工具)、Pig(数据分析工具)、Spark(快速大数据处理引擎)、HBase(NoSQL数据库)、Zookeeper(分布式协调服务)等,它们共同构成了一个强大的大数据处理...
### Hadoop生态系统基本介绍 #### 一、Hadoop发展历程及各组件概述 ##### 1.1 课程简介 - **课程目标**:本课程旨在帮助学员理解Hadoop的发展历程及其在大数据处理领域的地位,并深入探讨Hadoop生态系统的各个...
综上所述,Hadoop生态圈是一个涵盖数据存储、处理、分析和管理的全面解决方案,它的开源特性鼓励了社区的创新和发展,为企业提供了处理大数据问题的强大工具。随着技术的不断演进,Hadoop生态圈将持续扩展,为更多...
本实训课程设计旨在帮助大数据工程师熟练掌握Hadoop高可用性(HA)部署,以及Hadoop生态圈中其他关键组件的安装与配置,包括Zookeeper、Hive、Hbase、Sqoop、Flume、Spark、Storm、Kafka和MongoDB。以下是详细的知识...
**Hadoop生态圈**:Hadoop生态还包括其他组件,如YARN(资源调度器),HBase(NoSQL数据库),Spark(快速大数据处理框架)等,它们共同构成了一个完整的大数据处理生态系统。 **Hbase**:是一个基于HDFS的分布式、...
#### Hadoop 生态圈及各组成部分简介 - **HDFS (Hadoop Distributed File System)**:分布式文件系统,允许将数据分布在多个节点上,提高存储容量和数据访问速度。 - **YARN (Yet Another Resource Negotiator)**:...
- **技能要求**:Hadoop领域的职位通常要求掌握Hadoop集群搭建、HDFS原理与使用、MapReduce编程、Hive应用等方面的知识。 - **薪资水平**:大数据领域特别是Hadoop相关岗位的薪资普遍高于传统软件开发岗位。 #### ...