- 浏览: 363771 次
- 性别:
- 来自: 水星
最新评论
-
mafuli007:
【6】MongoDB数据导入和导出 -
xchd:
czwq2001 写道我带hbase执行的时候出现以下异常,不 ...
Hive HBase整合使用 -
shanxu9198:
geilivable
HBase的数据模型 -
johnnyzuo:
不起作用。希望LZ以后自测后再发,这样很容易误导初学者
hadoop自动清除日志文件的配置方法 -
hongzhi0618:
你好,我到这一步的时候,echo "test mes ...
[4] Scribe使用例子3
文章列表
中央Scribe服务器故障情况下,从属Scribe服务器会本地缓存日志,待
中央Scibe服务器恢复后再传送日志。
测试过程如下:
1:首先启动中央Scribe服务器
./bin/scribed examples/example2central.conf
2:使用从属Scribe服务器记录日志信息
...
[3] Scripe使用例子2
- 博客分类:
- Scribe
这个例子展示多个Scribe实例的情况下如何记录日志的。
本例子通过一台服务器上不同的端口启用Scribe服务来模拟多台Scribe服务器的运作情况的。
1:创建用于存放日志文件的目录
mkdir /tmp/scribetest1
mkdir /tmp/scribetest2
2:首先在1463端口启动中央Scribe服务器,这个服务器会将日志写磁盘。(配置项参加./examples/example2central.conf)
./bin/scribed examples/example2central.conf
3:在1464端口启动从属Scribe服务器,这个 ...
Scribe的安装
一、安装前提:
1:
libevent
解压缩安装
./configure
make
make install
2:
boost (版本>=1.36)
解压缩安装
./configure
make
make install
3:Facebook基础服务
thrift (版本>=0.5.0)
fb303
先安装thrift,再安装fb303
解压并进入thrift目录
./bootstrap.sh
./configure –with-boost=/usr/local/include/boost/ - ...
Facebook Scribe简介
Scribe是用来收集日志的服务器.它可以扩展到大规模的机器集群中,无论是网络故障还是服务器节点故障,都不会对日志收集造成影响.大规模集群系统中每个节点服务器上都运行了一个Scribe服务,这个Scribe服务器 ...
显示当前目录下各个文件的大小
ll -h
(相对于 ls -lh)
显示当前目录下各个文件夹的文件总大小
ls | xargs du -sh
当前服务器的空间使用情况
df -h
当前文件夹下所有文件总大小
du -smh *
查看文件
cat 1.txt | more
tail -n 10 1.txt | grep uuid
head -n 10 1.txt
文件转移
cp a.txt /tmp/
cp a.txt /tmp/b.txt
mv a.txt /tmp/
scp a.txt username@10.20.134. ...
Hive HBase整合使用
将Hive中的数据导入到HBase中
wiki上的介绍链接如下:
http://wiki.apache.org/hadoop/Hive/HBaseIntegration
各版本要求:
hadoop-0.20.2
hbase-0.20.3
hive-0.6.0(之前的版本都不支持)
zookeeper-3.3.0
确认目录下有这个jar包:
./hive-0.6.0/lib/hive_hbase-handler.jar
加载这个jar包启动hive:
单个hbase服务器的启动命令如下:
bin/hive --a ...
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
Sqoop的User Guide地址:
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_introduction
1:
tar zxvf sqoop-1.1.0.tar.gz
2:
修改配置文件 /home/hadoopuser/sqoop-1.1.0/co ...
为了把点格式的ip地址转换成整数表示的ip地址,创建如下MYSQL函数:
create function ip_calc(ip varchar(20)) returns bigint(20)
return
substring_index(ip,'.',1)*256*256*256
+substring_index(substring_index(ip,'.',2),'.',-1)*256*256
+ substring_index(substring_index(ip,'.',-2),'.',1)*256
+substring_index(ip,'.',-1);
作用 ...
Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。
Chukwa 是基于Hadoop集群中监控系统,可以用他来分析和收集系统中的数据(日志)
Hive 是DataWareHouse 和 Map Reduce交集,适用于ETL方面的工作
HBase 是一个面向列的分布式数据库。
Map Reduce 是Google提出的一种算法,用于超大型数据集的并行运算。
HDFS 可以支持千万级的大型分布式文件系统。
Zookeeper 提供的功能包括:配置维护、 ...
chukwa配置安装过程(1)
1:
tar zxvf chukwa-0.4.0.tar.gz
需要被监控的节点都有分发一份,每个节点都将会运行一个collector
2:
修改 ./chukwa-0.4.0/conf/chukwa-env.sh
这里面的配置项都要根据实际情况配置一遍
3:
修改(如果没有则创建) ./chukwa-0.4.0/conf/agents
配置格式为:
http://<collector1HostName>:<collector1Port>/
http://<collector2HostName>:& ...
HBase集群配置安装
hadoop-0.20.2
hbase-0.20.3
zookeeper-3.3.0
1:
tar zxvf hbase-0.20.3.tar.gz
2:
修改 ./hbase-0.20.3/conf/hbase-env.sh
export JAVA_HOME=/usr/local/java/
3:
创建文件./hbase-0.20.3/conf/hbase-site.xml
用户存放用户自定义的一些配置信息,相关配置项可以从 ./hbase-0.20.3/conf/hbase-default.xml中找到.
一个简单的hbase-si ...
编写Python脚本将Hive的运算结果保存到MySQL数据库中(1)
很多情况下,需要将Hive中的运算结果保存到MySQL数据库中,可以通过简单的Python脚本来实现。
例子1:如果获取Hive查询语句的返回值
#encoding=utf-8
from hive_service import ThriftHive
from hive_service.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift. ...
hadoop集群跑了很多的任务后
在hadoop.log.dir目录下会产生大量的日志文件。
可以通过配置core-site.xml文件让集群自动清除日志文件:
<property>
<name>hadoop.logfile.size</name>
<value>10000000</value>
<description>The max size of each log file</description>
</property>
<property&g ...
Linux下为机器设置静态IP地址:
vim /etc/sysconfig/network-scripts/ifcfg-eth0
修改这个文件内容如下形式:
# Intel Corporation 82541GI Gigabit Ethernet Controller
DEVICE=eth0
BOOTPROTO=static #为静态的
HWADDR=00:15:17:B2:DC:B5
ONBOOT=yes
IPADDR=10.20.134.199 #这个是设置的静态IP地址
NETMASK=255.255.254.0
GATEWAY=10.20.134. ...
官网的user guide在这:
http://hadoop.apache.org/zookeeper/docs/current/zookeeperStarted.html#sc_RunningReplicatedZooKeeper
zookeeper的配置只需要更改两个文件
一个是 ./conf/zoo.cfg
一个是zoo.cfg中配置的dataDir的目录下的myid文件,这个myid文件需要自己创建。
进入./zookeeper-3.3.0/conf目录后,
cp zoo_sample.cfg zoo.cfg 拷贝一份
vim .cfg
tickTime ...