hadoop hdfs ha搭建
一台机子
bin/hdfs zkfc -formatZK
每台namenode
sbin/hadoop-daemon.sh start zkfc
每台journalnode
sbin/hadoop-daemon.sh start journalnode
每台namenode
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
如果没有active standy,则zkfc又问题,可以手动hdfs haadmin -transitionToActive hadoop100
主namenode(tolerated volumes不许大于等于data dir)
sbin/hadoop-daemons.sh start datanode
sbin/start-yarn.sh
在备上 修改ha.id
sbin/hadoop-daemon.sh start resourcemanager
基础命令 用户命令和文件命令
1. pwd 当前目录
2. ls -l 列表详细信息 相同与ll
ls -lh 查看文件大小
-rw-r-r-- 1 root root 1508 xxx.c
本用户 本组用户 其他用户 本用户 本组用户 大小 文件名
3. 查看机子内存,cpu,pci
free
cat proc/cpuinfo
lspci -b(可以看出机子是否为虚拟机)
4.配置无密码的ssh通信
ssh-keygen -t rsa -P ""
cat id_rsa.pub >> authorized_keys
ssh localhost
有时需要设置权限700给.ssh 600给authorized_keys
5.linux报错
configure: error: no acceptable C compiler found in $PATH 就是gcc编译器未装
6.更新autoconf包,(生成makefile用)
./configure --prefix=/usr &&
make &&
make install
7.解决问题 sudo
whereis sudoers -------找出文件所在的位置,默认都是/etc/sudoers
chmod u+w /etc/sudoers 以超级用户登录su -root ,修改文件权限即添加
文件拥有这的写权限 限,ls -al /etc/sudoers 可以查看原文件的权限。
vim /etc/sudoers 编辑文件,在root ALL=(ALL)ALL行下添加XXX ALL=(ALL)ALL,
XXX为你的用户名。添加方法:找到root行,按下”i“键进入编辑模式添加即可!编辑
好后esc键进入一般模式,“:wq"保存退出!(空格是\t)
chmod u-w /etc/sudoers 回到文件的原权限!
加入到 /etc/group
8.tar命令
解压文件到指定目录:tar -zxvf /home/zjx/aa.tar.gz -C /home/zjx/pf
9.进入redis命令行
src下边 redis-cli
smembers testSet
10.ps命令,列进程
ps aux | grep "init" 列出所选进程
ps -ef|grep ssh
ps -A
11.netstat -ant|grep 8080 查看8080端口
12.killall -9 pppd 或 kill -9 pid 杀进程
13.rm -rf 目录 f是无询问
14.释放内存
上传:
scp /path/file(这部分为本地的路径) user(远端目标用户名)@host(远端目标IP):/pathorfile(文件存储路径)
下载:
scp user(远端用户名)@host(远端IP):/path/file(下载文件在远端的路径) localpathorfile(本地文件存放路径)
查看目录或文件:
ssh user@host command ls "/path/*.tgz"
下载例子:scp root@192.168.6.23:/home/hadoop/hive/hadoop-1.0.1.tar.gz /root/software
上传例子: scp /root/test.java hadoop@192.168.6.23:/home/hadoop
16.安装jdk
1下载jdk-6u14-linux-i586-rpm.bin
2运行./jdk-6u14-linux-i586-rpm.bin
3java默认会安装在/usr/java下,
在命令行输入: vi /etc/profile
在里面添加如下内容
export JAVA_HOME=/usr/java/jdk1.6.0_38
export JAVA_BIN=/usr/java/jdk1.6.0_38/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
4.进入 /usr/bin/目录 cd /usr/bin
ln -s -f /usr/java/jdk1.6.0_02/jre/bin/java
ln -s -f /usr/java/jdk1.6.0_02/bin/javac
17 移动文件mv /root/hadoop/readme /root/data
复制文件cp /root/hadoop/readme /root/data/readme
18 修改域名解析/etc/hosts
192.168.5.100 master
192.168.5.101 slaver1
192.168.5.102 slaver2
。。。。。。
19 启动redis客户端 ./redis-cli -h 192.168.6.36 -p 19999
可以用它访问twemproxy代理
20 普通用户无法用sbin目录下的命令,是因为$PATH下没有/sbin目录
21 linux 防火墙
1) 重启后生效
开启: chkconfig iptables on
关闭: chkconfig iptables off
2) 即时生效,重启后失效
开启: service iptables start
关闭: service iptables stop
查看:
chkconfig iptables --list 查看防火墙状态
需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。
在开启了防火墙时,做如下设置,开启相关端口,
修改/etc/sysconfig/iptables 文件,添加以下内容:
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT
21 hadoop 集群环境配置
1.linux 两台 192.168.48.101 master
192.168.48.102 slaver1
2.linux 实现无密码通信 将master的id_rsa.pub 添加到slaver的authorized_keys中
3.linux 安装java (每台机子)
4.hadoop安装
1.在/etc/profile中添加环境变量
PATH添加hadoop的bin目录,添加HADOOP_HOME
2.hadoop-env.sh中配置运行环境
添加export JAVA_HOME=/usr/java/jdk1.6.0_38
3. core-site.xml 中配置hdfs PRC的service的ip:port 和临时目录 以及replication
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/temp</value>
</property>
</configuration>
4.hdfs-site.xml中配置hdfs参数,存储目录,以及relication
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/hdfs/data</value>
</property>
</configuration>
5.mapred-site.xml中配置jobtracker service的ip:port
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>
6.masters文件中配置master ip
7.slavers文件中配置slaver ip
5.copy hadoop的conf到各个机子
22. hive 环境搭建
hive搭建,必须配置的只有在hive-env.sh中的HIVE_HOME=$PWD
配置的时候可能会碰到一些问题,大多都是linux环境中依赖包的版本问题
如:
1.line 179: `if [[ "$HADOOP_VERSION" =~ $hadoop_version_re ]]; then'
在启动hive时,这需要3.1,3.2的bash运行,环境的bash版本太低。可以update bash,或者 直接删除这个判断
2.hive java.io.unixfilesystem.createfileexclusively(native method)
这一般情况下,是文件权限的问题,确定hive用户获得hdfs那些目录的权限,包括log,tmp
hive的其他配置文件:
23.hbase 环境搭建(合并zookeeper)
1.配置
修改配置文件:
hbase-env.sh中添加
export JAVA_HOME=/usr/java/jdk1.6.0_38
在hbase-site.xml中添加
<configuration>
<property>
<name>dfs.support.append</name>
<value>true</value>
</property>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/home/hadoop/hbase/hbase</value>
<!-数据的目录->
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
<!-分布式模式->
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>slaver1</value>
<!--zookeeper集群服务器的位置,多个用逗号slaver1,slaver2->
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/hadoop/hbase/zookeeper</value>
<!-zookeeper的数据目录->
</property>
</configuration>
2.scp到slaver上 (需要放在同目录上)
3.启动服务 bin/start-hbase.sh
4.测试bin/hbase shell
>create 't1'
>list
遇到的问题:
ERROR zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 3 retries
netstat 查pid kill
netstat -anp | grep 60020 | awk '{print $7}' | cut -d '/' -f1 | xargs kill -9
cpu
在Linux系统中,如何详细了解CPU的信息呢? 当然是通过cat /proc/cpuinfo来检查了,但是比如几个物理CPU/几核/几线程,这些问题怎么确定呢?
经过查看,我的开发机器是1个物理CPU,4核8线程,Intel(R) Core(TM) i7 CPU 860 @ 2.80GHz
记录一下,判断的过程和知识。
判断依据:
1.具有相同core id的cpu是同一个core的超线程。
2.具有相同physical id的cpu是同一颗cpu封装的线程或者cores。
英文版:
1.Physical id and core id are not necessarily consecutive but they are unique. Any cpu with the same core id are hyperthreads in the same core.
2.Any cpu with the same physical id are threads or cores in the same physical socket.
echo "logical CPU number:"
#逻辑CPU个数
cat /proc/cpuinfo | grep "processor" | wc -l
echo "physical CPU number:"
#物理CPU个数:
cat /proc/cpuinfo | grep "physical id" | sort -u | wc -l
echo "core number in a physical CPU:"
#每个物理CPU中Core的个数:
cat /proc/cpuinfo | grep "cpu cores" | uniq | awk -F: '{print $2}'
#查看core id的数量,即为所有物理CPU上的core的个数
cat /proc/cpuinfo | grep "core id" | uniq | wc -l
#是否为超线程?
#如果有两个逻辑CPU具有相同的”core id”,那么超线程是打开的。或者siblings数目比cpu cores数目大。
#每个物理CPU中逻辑CPU(可能是core, threads或both)的个数:
cat /proc/cpuinfo | grep "siblings"
/proc/cpuinfo 文件包含系统上每个处理器的数据段落。/proc/cpuinfo 描述中有 6 个条目适用于多内核和超线程(HT)技术检查:processor, vendor id, physical id, siblings, core id 和 cpu cores。
processor 条目包括这一逻辑处理器的唯一标识符。
physical id 条目包括每个物理封装的唯一标识符。
core id 条目保存每个内核的唯一标识符。
siblings 条目列出了位于相同物理封装中的逻辑处理器的数量。
cpu cores 条目包含位于相同物理封装中的内核数量。
如果处理器为英特尔处理器,则 vendor id 条目中的字符串是 GenuineIntel。
1.拥有相同 physical id 的所有逻辑处理器共享同一个物理插座。每个 physical id 代表一个唯一的物理封装。
2.Siblings 表示位于这一物理封装上的逻辑处理器的数量。它们可能支持也可能不支持超线程(HT)技术。
3.每个 core id 均代表一个唯一的处理器内核。所有带有相同 core id 的逻辑处理器均位于同一个处理器内核上。
4.如果有一个以上逻辑处理器拥有相同的 core id 和 physical id,则说明系统支持超线程(HT)技术。
5.如果有两个或两个以上的逻辑处理器拥有相同的 physical id,但是 core id 不同,则说明这是一个多内核处理器。cpu cores 条目也可以表示是否支持多内核。
判断CPU是否64位,检查cpuinfo中的flags区段,看是否有lm标识。
Are the processors 64-bit?
A 64-bit processor will have lm ("long mode") in the flags section of cpuinfo. A 32-bit processor will not.
linux shell vi
:n,$s/aaaa/bbbb/
相关推荐
Linux下的Hadoop搭建1 本篇文章将指导读者如何在Linux系统上搭建Hadoop环境。Hadoop是一种大数据处理工具,能够对大量数据进行存储和处理。下面是 Linux下的Hadoop搭建步骤。 首先,需要了解Hadoop有三种运行模式...
Linux运维入门Hadoop实验参照手册二(安装Hadoop)
在Linux环境下搭建Hadoop并配置Eclipse开发环境是大数据处理工作中的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。而Eclipse是一款强大的集成开发环境(IDE),通过特定的插件可以...
在Linux环境下搭建Hadoop集群是一项复杂但至关重要的工作,它涉及到多个步骤,包括理解Hadoop的基本概念、配置网络环境、安装必要的软件以及调整系统参数。本文将深入探讨这些知识点。 首先,我们需要了解Hadoop的...
详细的hadoop集群搭建步骤
在Linux环境下搭建Hadoop集群是一项复杂但至关重要的任务,它为大数据处理提供了强大的分布式平台。以下将详细介绍如何在一台虚拟机上安装多台Linux服务节点,并构建Hadoop集群环境。 首先,我们需要准备一个基础...
【大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置】 实验主要涉及了大数据技术中的基础概念,包括Linux操作系统、Java环境、SSH服务、Hadoop集群的搭建与配置。以下是具体步骤和知识点的详细解释:...
资源名称:linux hadoop搭建手册以及三种集群模式配置内容简介: linux hadoop搭建手册以及三种集群模式配置前半部分主要讲述了环境配置 环境配置环境配置;后半部分主要讲述Hadoop集群有三种运行模式,分别为单机...
Hadoop搭建步骤 Hadoop是一个大数据处理框架,环境搭建是学习Hadoop的第一步,但要成功搭建一个分布式环境,还是颇费些周折的。以下是Hadoop搭建步骤的详细讲解。 一、静态IP配置 在所有机器上手工设置静态IP,...
Title: Deep Learning with Hadoop Author: Dipayan Dev Length: 259 pages Edition: 1 Language: English Publisher: Packt Publishing Publication Date: 2017-03-06 ISBN-10: 1787124762 ISBN-13: 9781787124769 ...
Deep Learning with Hadoop 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 查看此书详细信息请在美国亚马逊官网搜索此书
hadoop集群搭建,集群解析,hbase集群搭建
本实验报告主要涵盖了两个核心部分:Linux操作系统的基本操作和Hadoop分布式文件系统的使用。 在Linux部分,实验旨在使学生熟悉一系列基础命令,这对于任何在Linux环境中工作的数据科学家都是必不可少的技能。例如...
在搭建Hadoop伪分布式集群的过程中,首先需要在Linux环境下配置VMware的NAT网络,确保虚拟机能够稳定地运行和通信。NAT网络允许虚拟机通过宿主机与外部网络进行通信,同时保持IP地址的固定性。具体操作包括取消DHCP...
Linux 操作系统安装环境下Hadoop集群搭建详细简明教程
Deep Learning with Hadoop 英文无水印原版pdf pdf所有页面使用FoxitReader、PDF-XChangeViewer、SumatraPDF和Firefox测试都可以打开 本资源转载自网络,如有侵权,请联系上传者或csdn删除 查看此书详细信息请...
Hadoop搭建全程步骤:1.准备Linux环境;2.安装JDK;3.安装Hadoop;4.配置ssh免登陆
hadoop搭建集群笔记.虚拟机搭建hadoop集群
NULL 博文链接:https://daxiangwanju.iteye.com/blog/1962175
Hadoop平台搭建是一个复杂的过程,需要具备一定的Linux和Hadoop知识。只有通过详细的配置和测试,才能确保Hadoop平台的稳定运行。 知识点: * Hadoop平台搭建的过程 * 硬件环境的选择 * 软件环境的安装和配置 * ...