- 浏览: 54586 次
最新评论
-
ghost_face:
fireinwind 写道查看Storm ui,地址是:htt ...
Storm on yarn安装步骤 -
fireinwind:
查看Storm ui,地址是:http://<your ...
Storm on yarn安装步骤 -
chenling96:
首先谢谢你的答复,我的storm on yarn可以正常跑起来 ...
Storm on yarn安装步骤 -
ghost_face:
storm on yarn运行的时候(就是storm-yarn ...
Storm on yarn安装步骤 -
chenling96:
a.提交Topology storm jar lib/sto ...
Storm on yarn安装步骤
文章列表
《京华烟云》有感——正中红心,不偏不倚
- 博客分类:
- 休闲
看完京华烟云小说后,忍不住写这个感受时,眼泪不由自主地流。姚木兰同父亲一样,最终得道。父亲是远离群众,一个人打坐沉思得道,而木兰最终为了国家存亡,为了民族的延续,深入群众,得到解脱,失去自我。 ...
注:从metaq官网copy下来,便于查看;
地址:https://github.com/killme2008/Metamorphosis/wiki/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86
配置管理
Web管理平台
从1.4.5开始,MetaQ提供了一个Web管理平台,默认运行在8120端口,你可以通过浏览器访问
Storm可以确保由Spout发送的每条消息都会被所有的Bolts完全处理,但是这需要用户来决定是否需要可靠性机制。如果是简单的统计分析,可靠性要求不是很高,则可以选择使用不可靠的Bolts。
Storm编程中,有各种 ...
Storm on yarn安装步骤
- 博客分类:
- 环境搭建
参考:
[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea
[2] http://blog.csdn.net/jiushuai/article/details/18729367
1. 已有的环境
a. 安装有HDFS文件系统
b. 安装有YARN,且YARN服务已经开启
c. JAVA_HOME
注:本次安装实验是基于hadoop2.2.0的,jdk1.7,因此a,b,c全部满足。
2. Storm on Yarn的安装准备
a. ...
---------以下部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html----------------
在“文本比较算法Ⅰ——LD算法”中,介绍了编辑距离的计算。
在“文本比较算法Ⅱ——Needleman/Wunsch算法”中,介绍了最长公共子串的计算。
原文链接:http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html
文章大致内容:
1,计算两个字符串的Levenshtein距离。
Levenshtein距离:又叫做编辑距离,指两个字符串A和B中,A到B(或者B到A)的转变至少需要编辑的次 数。编辑操作包括:添加、删除、替换。
2,计算两个字符串的LCS(Longest Common Subsequence)长度
3,根据1,2,来确定最后的相似度。
输入
类FileInputFormat
FileInputFormat是所有使用文件作为数据源的InputFormat实现的基类。
1,1基本的输入
通过addInputPath(s)和setInputPath(s)四种静态方法设置输入路径。
1,2有选择的输入
如果需要排除特定文件,可以使用setInputPathFilter()方法设置一个过滤器。
注:FileInputFormat会使用一个默认的过滤器来排除隐藏文件(名称中以“.”和“_”开头的文件)。如果通过调用setInputPathFilter()设置过滤器,将会在默认过滤器的基础上进行过滤。
1,3类Fi ...
MapReduce,组合式,迭代式,链式
前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html
1.迭代式mapreduce
一些复杂的任务难以用一次mapreduce处理完成,需要多 ...
Mahout-Kmeans
1,两个输入路径:一个是数据的点;一个是初始集群。
点的输入文件是SequenceFile(Key, VectorWritable)格式;
而初始集群的输入文件格式是SequenceFiles(Text, Cluster | Canopy)
2,每次迭代会产生一个输出目录“cluster-N”,输出文件格式为SequenceFile(Text, Cluster),表示第N次迭代后产生的clusters。
3,输出目录“clusteredPoints”,表示最终的集群结果,即每个集群中所包含的Points。
4,解压安装Mahout ...
Oozie的JavaAction使用
- 博客分类:
- oozie
1编写自定义功能的main函数
功能:得到指定目录的信息(该目录下文件个数、该目录的修改时间),并将信息反馈给oozie。
代码如下:
package myTest.oozie;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.File;
import java.i ...
Hive
1.安装
(1)安装要求:Java1.6;Hadoop0.20.x
(2)安装步骤
l 解压
$ tar -xzvf hive-x.y.z.tar.gz
l 环境变量HIVE_HOME,PATH,JAVA_HOME,HADOOP_HOME
$ cd hive-x.y.z
$ export HIVE_HOME={{pwd}}
$ export PATH=$HIVE_HOME/bin:$PATH
$ export JAVA_HOME=/usr/java/jdk1.7.0_01
$ export HADOOP_HOME=<hadoop-ins ...
hadoop环境搭建
- 博客分类:
- 环境搭建
背景:三台机器,一个主机名为master,另外两个是slave1和slave2。
将master作为jobtracker和namenode
1,在所有机器上新建用户
useradd hh -g hadoop
2,配置ssh(免密码登陆)
// 在master端生成秘钥
ssh-keygen
//查 ...
EL:Expression Language
http://oozie.apache.org/docs/3.3.2/WorkflowFunctionalSpec.html#a4.2.1_Basic_EL_Constants
Oozie相关函数
1.Decision Node
1.1 switch case
default一定要设置。
Example:
<workflow-app name="foo-wf" xmlns="uri:oozie:workflow:0.1">
...
<decisi ...
在集群中查看Task日志的方法,一般有两个:
1,通过Hadoop提供的WebConsole,直接在页面中追踪查看;
2,到集群中运行该task的节点上,查看日志文件。每个tasktracker子进程都会用log4j产生三个日志文件,分别是syslog,stdout,stderr。这些日志文件存放到%HADOOP_LOG_DIR%目录下的userlogs的子目录中。但是通过该方法,需要追踪到哪个节点运行了该task。
下面,通过使用JobClient,以及JobClient的几个私有方法(displayTaskLogs()、getTaskLogs()、getTaskLogURL( ...
MapReduce程序默认的输出文件个数:
首先,根据setNumReduceTasks(int num)这个方法,
其次,根据Map的输出文件个数。
一般情况下,同一个key的数据,可能会被分散到不同的输出文件中。倘若我们要对某一个特定的key的所有value值进行遍历,则需要将包含该key的所有文件作为输入文件。当数据比较庞大时,这样的操作会浪费资源。如果同一个Key的所有的value值都会被分配到同一个文件中,就会比较理想。
在Hadoop-core包中,有个类MultiplyOutputs可以实现以上功能(其实就是在reduce中加一两句话,其他不变)。代码如下:
pa ...