- 浏览: 41187 次
- 性别:
- 来自: 深圳
最新评论
-
Wuaner:
体积小巧,文字却很清晰,不错的版本。谢谢lz分享!
Hadoop权威指南(第二版)pdf中文版 -
laserdance:
command type python3.2
在Linux下安装Python
文章列表
在Linux下安装Python
- 博客分类:
- 技术杂记
在Linux下安装Python的操作相当简单,按如下步骤操作即可:
1、 在官方网站下载python安装包,这里注意python.org/download路径被屏蔽,需要使用www.python.org页面上的中文“下载”链接进行下载。
这里下载了python最新的3.2.2版本:Python-3.2.2.tgz
下载后,文件目录在/home/python/下,这也是我python的安装目录
2、 解压:
[root@hadoopsvr1 python]# tar zxvf Python-3.2.2.tgz
3、 打开安装目录,执行: ...
利用Ant构建Hadoop高效开发环境
- 博客分类:
- hadoop
最近Hadoop的研究中,都是利用Mockito来模拟数据进行,下一个阶段需要在Hadoop服务器上做大量的运行进行验证,同时也要为正式使用做准备。
今天考虑使用Ant来搭建一个Hadoop的开发和调试环境,不使用hadoop自带的插件。
思路如下:
1、 利用Ant在开发机器上将代码编译、打包,最终得到可执行的jar包。
2、 利用Ant的SSH属性,将jar包传到hadoop服务器的指定工作目录。
这样就开发机器做为编码客户端,与执行服务器之间关联,代码部署的时间基本不用考虑,开发效率可以提高,也利于在真实环境进行验证程序。
再扩展开来,可以利用An ...
Python下载地址
- 博客分类:
- 技术杂记
托GFW的福,Python编程语言的下载目录竟然被墙。这个问题已经很久了。。。
不过官方网站很人性化,专门提供了一个中文的下载路径。
中文路径中将二级目录的download(www.python.org/download/)改为了getit(www.python.org/getit/)。
看来老外比中国人还知道心疼中国人啊,嘿嘿
GFW这个误杀人所众知,但仍然不见其改变啊。。。
--------------------------------------------------------------------------------------------- ...
Linux时间同步方式记录
- 博客分类:
- 技术杂记
Linux时间同步
部署Hadoop集群,遇到各个linux服务器的时间不同步的问题,于是研究了一下linux的时间同步方式,特将同步方式,总结如下:
A、 前提条件
a) 网络是连通的,这个不用解释撒,呵呵
b) DNS服务器是正常的,可以通过ping来测试,如果出现unknow host,则需要设置DNS服务器。
设置DNS的方式:
----------------------------------------------
执行:vi /etc/resolv.conf
添加:nameserver 202.96.134.133 ...
MapReduce工作机制
1. 剖析MapReduce的工作运行机制
2. 失败
Tasktracker失败:
失败检测机制,是通过心跳进行检测。主要有:
(1) 超时:mapred.tasktracker.expiry.interval属性设置,单位毫秒
(2) 黑名单机制:失败任务数远远高于集群的平均失败任务数。
失败处理机制:
(1) 从等待任务调度的tasktracker池中移除
(2) 未完成的作业,重新运行和调度
MapReduce应用开发
1. MapReduce程序开发步骤
编写map 和 reduce 程序–> 单元测试 -> 编写驱动程序进行验证-> 本地数据集调试 -> 部署到集群运行
用到的工具:
Junit、Mockito、Ant
2. 使用Configuration
关键点:
1、 Configuration类可以加载配置文件,包括系统的和自定义的
2、 addResource方法后面的配置文件会覆盖前面的
hadoop的应用(摘自itpub论坛)
- 博客分类:
- hadoop
在itpub的hadoop论坛中看到一则hadoop的应用说明,觉得不错,转载之。
地址:http://www.itpub.net/thread-1458086-1-1.html
在实际生产中,hadoop是怎么应用的?1.数据是怎么进入到HADOOP的?2.HADOOP在现在数据仓库中扮演的是一个什么样的角色?3.hadoop是不是需要二次开发?4.从HADOOP有什么缺点?能实现复杂的业务计算吗?
第一点:在数据仓库中,有个很重要的组成部分叫做ETL,也就是数据的抽取,清洗,装载。
Hadoop的Namenode的容灾处理
- 博客分类:
- hadoop
Hadoop的namenode是关键节点,虽然业务尽量单一,减少出错几率,但是程序都有出错的可能,所以还是需要有效的办法来解决,如下是权威指南里面介绍的两种方法:
1、备份那些组成文件系统元数据持久状态的文件。hadoop可以通过配置使namenode在多个文件系统上保存元数据的持久状态。这些写操作是实时同步的,是原子操作。一般的配置是:将持久状态写入本地磁盘的同时,写入一个远程挂载的网络文件系统NFS
2、运行一个辅助的namenode,但它不能被用作namenode。这个辅助的namenode的重要作用是定期通过编辑日志合并命名空间镜像,以防止编辑日志过大。这个辅助na ...
HDFS系统学习笔记
- 博客分类:
- hadoop
HDFS系统
1. 读数据流程
客户端开始读取,打开FS,首先从NameNode获取元数据(返回的元数据包括数据块的定义及位置,是否几个副本的位置也同时返回了?),然后根据元数据从各数据节点读取数据,其中数据 ...
hadoop开发环境配置(伪分布)
- 博客分类:
- hadoop
Hadoop开发环境
安装插件
0.20.0下原始的eclispe插件无法使用,需要下载网上改造过的:
hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar
copy到eclispe插件目录,然后重启eclispe。
PS:这里出现一个问题,发现在eclispe3.7下插件不会加载,最终删除旧的eclispe,使用新解压的文件解决,可以将旧eclispe插件目录下的文件COPY到新目录。同样可以使用之前的插件。
配置插件环境
Hadoop配置更改
之前配置的伪分布模式上,采用的localhost的配 ...
Hadoop安装总结
- 博客分类:
- hadoop
Hadoop安装总结
安装JDK
1、下载jdk1.6及以上版本,在/usr下安装
chmod u+x jdk-6u26-linux-i586.bin
./ jdk-6u26-linux-i586.bin
2、配置环境变量
vi /etc/profile
找到如下代码:
for i in /etc/profile.d/*.sh ;
do
if [ -r "$i" ]; then
. $i
fi
done
在之后加入:
#java ...
Hadoop及子项目介绍
- 博客分类:
- hadoop
Hadoop及子项目介绍
Hadoop是Apache的一个项目(http://hadoop.apache.org/),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架。
目前,整个Hadoop家族由以下几个子项目组成:
Hadoop CommonHadoop体系 ...
Oralce序列机制
- 博客分类:
- oracle
今天处理一个数据,在Oracle序列上发现一个问题,本着发现问题、解决问题、穷根问底的精神,准备把这个问题搞清楚。
问题与现象:
对序列,按我们的理解每次取seq.nextval,它是自增的,所以后入库的肯定比先入库的要大,但我的一个日志表中出现了如下现象:
LOGID CREATETIME
1 730009 2011/8/6 15:41:14
2 729988 2011/8/6 15:37:53
3 729978 2011/8/6 15:34:53
4 729961 2011/8/6 15:43:22
5 729958 2011/8/6 15:33:52
...
Google的三大基石,也是云计算的几个重点论文的来源:
1、GFS(Google File System):
Google文件系统,来源于Google发布的一篇论文,基于该系统拓展出了HDFS
2、MapReduce
并行运算框架,目前主要是hadoop(yahoo贡献,Google发扬光大,Facebook以此为基础构建)
3、BigTable
Nosql的分布式数据库系统,主要用于统计分析,并行计算。开源的有HBase,Cassandra
------------------------------- ...