- 浏览: 10192 次
- 性别:
- 来自: 北京
最新评论
文章列表
参考:
http://f.dataguru.cn/thread-54454-1-1.htmlhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4/SqoopUserGuide.html
虚拟机环境:
redhat 5
软件版本:
下面是CDH3和SQOOP 1.2.0的下载地址
http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.ta ...
10-Oracle大数据OLH连接
- 博客分类:
- hadoop
参考:
http://www.dataguru.cn/forum.php?mod=viewthread&tid=39857
http://blog.sina.com.cn/s/blog_701a48e7010189rc.html
http://www.chenjunlu.com/2012/12/trying-with-oracle-loader-for-hadoop/
http://f.dataguru.cn/thread-39092-1-1.html
os:rhel-server-5.4-x86_64-dvd
jdk版本为: ...
9-hadoop-0.20 单节点安装
- 博客分类:
- hadoop
1)安装JAVA
2)SSH免密码
3)解压hadoop
这些安装与 1.03 一样。
1.03 的安装,请参照: http://pftzzg.iteye.com/blog/1910153
4)设置
a)
[root@centerOsMaster home]# vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.6.0_31
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/ ...
简称 Dn 全称 datanode
保存Block
启动DN线程的时候会向NN汇报block信息
通过向NN发送心跳保持与其联系(3秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN
简称Nn 全称 namenode
NameNode主要功能提供名称查询服务,它是一个jetty服务器
NameNode保存metadate信息包括
文件owership和permissions
文件包含哪些块
Block保存在哪个DataNode(由Data ...
8-Hadoop MapReduce数据流
- 博客分类:
- hadoop
参考:
http://www.linuxidc.com/Linux/2012-02/54485.htm
Hadoop的核心组件在一起工作时如下图所示:
图4.4高层MapReduce工作流水线
MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联。因此,任意的mapper都可以处理任意的输入文件。每一个mapper会加载一些存储在运行节点本地的文件集 ...
7-MapReduce入门
- 博客分类:
- hadoop
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算
通俗的说就是将一个大任务分成多个小任务并行完成,然后合并小任务的结果,得到最终结果。
1)打包注意:
一定要选择一个MAIN,不然不会运行。
2)
3)输出目录是HADOOP自己创建的。如果有这个目录,一定要删除。如下:
6-HDFS文件系统
- 博客分类:
- hadoop
使用HDFS储存文件优点:
1, 扩展方便,只需要增加datanode就可以立刻获得更大的储存空间和更好的数据访问速度
2,可以提供较高的数据库安全性
3,API接口丰富,方便各种不同的客户端调用
4-secondarynamenode
- 博客分类:
- hadoop
Namenode的工作特点
Namenode始终在内存中保存metedata,用于处理“读请求”
到有“写请求”到来时,namenode会首先写editlog到磁盘,成功返回后,才会修改内存,并且向客户端返回
Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedata保持一致,而是每隔一段时间通过合并editlog来更新内容。Secondary namenode就是用来更新fsimage的。
secondarynamenode的工作 ...
3-hadoop命令
- 博客分类:
- hadoop
1、查看指定目录下内容
hadoop dfs –ls [文件目录]
eg: hadoop dfs –ls /user/
2、打开某个已存在文件
hadoop dfs –cat [file_path]
eg:hadoop dfs -cat /user/data.txt
3、将本地文件存储至hadoop
hadoop fs –put [本地地址] [hadoop目录]
hadoop fs –put /home/t/file.txt /user/t
(file.txt是文件名)
4、将本地文件夹存储至had ...
1)准备环境
hostname
ip
作用
station1
192.168.80.51
Namenaode jobtracher datanode tasktracher
1-hadoop-1.03单节点的安装
- 博客分类:
- hadoop
1)确认安装了JDK,没有如下安装
[root@primary ~]# cd /home
[root@primary home]# cp jdk-6u31-linux-i586-rpm.bin /usr/local/
[root@primary home]# cd /usr/local/
[root@primary local]# chmod +x jdk-6u31-linux-i586-rpm.bin
[root@primary local]# ./jdk-6u31-linux-i586-rpm.bin
Press Enter to continue.....
...