最近在狂啃hadoop的书籍,这部《hbase:权威指南》就进入我的视野里面了,啃吧,因为是英文的书籍,有些个人理解不对的地方,欢迎各位拍砖。
HDFS和Hbase配置同步
hbase的配置中有一些和hdfs关联的配置,当hdfs中修改了,但是hbase中修改了,hbase中是不会知道的,比如dfs.replication,有时候我们想增加备份的数量,在hdfs中设置为5了,但是hbase中默认为3,这样hbase还是只保存3份。
那么有什么方法可以使他们的配置文件同步,有三种方法:
(1)在hbase-env.sh的HBASE_CLASSPATH环境变量增加HADOOP_CONF_DIR。
(2)在${HBASE_HOME}/conf下放一份hadoop的配置文件hdfs-site.xml (or hadoop-site.xml)。
(3)直接在hbase-site.xml中添加。
从上述三种方法当中,目测是第一种方法比较靠谱,当然要同步配置文件还有别的方法,后续再进行介绍。
Hbase配置文件同步的脚本
以下这两个脚本都可以实现集群的hbase配置文件同步,第二个还带有删除之前配置文件的方法,用的时候注意一些
#!/bin/bash
# Rsyncs HBase files across all slaves. Must run on master.
Assumes
# all files are located in /usr/local
if [ "$#" != "2" ]; then echo "usage: $(basename $0) <dir-name> <ln-name>" echo " example: $(basename $0) hbase-0.1 hbase" exit 1 fi SRC_PATH="/usr/local/$1/conf/regionservers" for srv in $(cat $SRC_PATH); do echo "Sending command to $srv...";
rsync -vaz --exclude='logs/*' /usr/local/$1 $srv:/usr/local/
ssh $srv "rm -fR /usr/local/$2 ; ln -s /usr/local/$1 /usr/local/$2" done echo "done."
另一个脚本,同样的功能,这个更简单些
#!/bin/bash
# Rsync's HBase config files across all region servers. Must run on master.
for srv in $(cat /usr/local/hbase/conf/regionservers); do echo "Sending command to $srv...";
rsync -vaz --delete --exclude='logs/*' /usr/local/hadoop/ $srv:/usr/local/hadoop/ rsync -vaz --delete --exclude='logs/*' /usr/local/hbase/ $srv:/usr/local/hbase/
done echo "done."
转载于:https://my.oschina.net/u/923508/blog/413119
分享到:
相关推荐
- **配置文件修改**:编辑`zookeeper/conf/zoo.cfg`文件,根据实际需求配置Zookeeper集群参数。 #### 实验步骤 1. **Hadoop集群配置确认**:确保Hadoop集群稳定运行,并且各节点间可以通过主机名相互访问。 2. **...
通过学习和参考这些代码,你可以快速搭建起一个实时数据同步的系统。 总的来说,利用HBase的协作器机制,我们可以实现高效的数据同步,将HBase的强大存储能力与Elasticsearch的优秀搜索性能相结合。这个过程涉及到...
在 Hbase 中,需要将 Hadoop 的配置文件 core-site.xml 和 hdfs-site.xml 软连接到 Hbase 的配置目录下。这可以使 Hbase 能够正确地使用 Hadoop。 1. 创建软连接 使用 ln 命令可以创建软连接,并将 Hadoop 的配置...
这会提供一个配置文件,需要在Elasticsearch中指定HBase的连接信息,包括Zookeeper地址、HBase表名以及要同步的列族。 3. **定义数据映射**: 在Elasticsearch中创建索引,并定义映射(Mapping),这将决定如何将...
- 将HBase软件及其配置文件同步到其他节点: ``` scp -r /opt/Software/hbase/hbase-1.2.6 root@slave1:/opt/Software/hbase/hbase-1.2.6 scp -r /opt/Software/hbase/hbase-1.2.6 root@slave2:/opt/Software/...
3. **配置 HBase 环境变量**:修改配置文件 `/usr/hbase/hbase-0.98.3-hadoop2/conf/hbase-env.sh`,设置正确的 JDK 路径,并开启 HBase 自带的 ZooKeeper 管理服务。 ```bash # 设置 JDK 路径 export JAVA_HOME...
#### 步骤五:复制HBase配置到其他节点 将HBase的配置文件夹`conf`复制到集群中的其他节点上。 ```sh Cd /root/hbase-0.98.12.1-hadoop2 scp -r conf node12:/root/hbase-0.98.12.1-hadoop2/ scp -r conf node13:/...
Zookeeper是一个分布式协调服务,对于HBase的正常运行至关重要,因为它负责集群中的节点管理和配置同步。在确保这两个服务已经安装并运行后,我们可以通过Cloudera Manager来添加HBase服务。 1. **通过Cloudera ...
- 如果HBase Master自动关闭,检查Hadoop和HBase的配置文件,确保它们的RPC端口设置一致。 HBase的这些特性使得它成为大数据领域中处理大规模实时数据的理想选择,尤其适用于日志分析、实时监控和大规模时间序列...
- 下载并安装HBase,根据集群还是单机模式,配置相应的配置文件,如`hbase-site.xml`和`hbase-env.sh`。 - 启动HBase集群,包括Master、RegionServer和Zookeeper服务。 - 创建HBase表并分配Region。 6. **...
3. **修改配置文件**: 进入HBase配置目录`/home/soft01/hbase/conf`,并使用`vi`编辑相关配置文件。 - **hbase-env.sh**: 设置JAVA_HOME,打开`HBASE_CLASSPATH`和`HBASE_MANAGES_ZK`的注释,指定JDK路径。 ```...
8. **Hadoop集群配置**:Hadoop的配置文件(如`core-site.xml`, `hdfs-site.xml`, `mapred-site.xml`, `yarn-site.xml`)需要在所有节点上进行同步,以确保集群的一致性。配置内容包括HDFS的NameNode和DataNode,...
安装过程完成后,还需要根据实际需求对HBase的配置文件(如`hbase-site.xml`和`hbase-env.sh`)进行调整,比如设置HBase的内存使用、Zookeeper地址、HDFS地址等。 总的来说,HBase是一个强大的分布式数据库,尤其...
3. **修改HBase配置**:在`conf/hbase-site.xml`中配置HBase与Hadoop的关联,包括HDFS的地址(hbase.rootdir)、ZooKeeper的地址(hbase.zookeeper.quorum)等。 4. **启动HBase**:运行`bin/start-hbase.sh`启动...
HBase配置文件主要涉及到hbase-site.xml文件,这里需要配置HBase的数据存储路径(hbase.rootdir),指向HDFS上一个预先创建的目录。此外,还需要配置HBase依赖的Zookeeper集群,确保集群中至少有一个Zookeeper节点。...
配置文件通常位于`conf`目录下,如`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`zoo.cfg`和`hbase-site.xml`。在这些文件中,你需要指定如HDFS的名称节点、数据节点,Zookeeper的服务器...
另外,还需要在regionservers文件中列出所有将运行regionserver的节点,并创建软链接,使HBase可以引用Hadoop的配置文件(core-site.xml和hdfs-site.xml)。 完成配置后,可以将HBase的配置文件通过`xsync`命令远程...
6. **Zookeeper**:HBase依赖Zookeeper进行协调和管理,包括Master选举、RegionServer状态监控、配置同步等关键任务。 7. **Scans**:HBase支持扫描操作,允许用户按需获取一系列行或满足特定条件的行,这在数据...
在大数据处理领域,Hadoop、HBase和Hive是三个非常重要的组件,它们共同构建了一个高效、可扩展的数据存储和分析平台。本文将详细介绍如何在Linux环境下搭建Hadoop2.2.0、HBase0.96和Hive0.12的集群环境。 首先,...