- 浏览: 863545 次
- 性别:
- 来自: 上海
-
最新评论
-
greemranqq:
at com.sun.tools.javac.api.Java ...
Eclipse中运行Sqoop诡异问题解决 -
louningfeng:
大神,请教一个问题,Hertrix 和 Nutch 有没有提供 ...
Heritrix3.1.1 新特性,新功能 -
tianyuxxx:
endy219 写道起步学习,资料的确比较少,谢谢分享!
准备跟大家分享下我Heritrix(机器爬虫)的经验 -
keylab:
我勒个去,加个群还需要支付费用才能加,这个境界简直无敌!!!
Hive源码分析(二) Eclipse调试Hive源码报does not have a scheme错误解决 -
不要叫我杨过:
期待后续佳作。。。
Heritrix3.0教程(六) 载入种子的四种方式
文章列表
本人新浪微博:http://weibo.com/guoyunsky
慢慢的要写些shell,这里介绍由浅入深的整理下shell传参。包括以下几个脚本:
1.pass-parameters-1.sh:简单的传参,包括一些变量介绍
2.pass-parameters-2.sh:shell里面方法调用方法的传参
3.pass-parameters-3.sh:传参时使用默认值
4.pass-parameters-4.sh判断参数是否正确
5.
直接贴代码吧.
...
刚接触setuptools时为之困惑了一段时间,以为只是一个帮助安装的工具而已。使用之后,才感觉有点类似Java里面的ant,maven。比如下载所需要的包,打包,发布,单元测试等。对于setuptools的介绍资料很多,我也是借助这些资料慢慢对setuptools有了一定的了解。但具体编码的貌似很少,我就写点吧,由浅入深。
具体的安装等可以看这篇文章介绍得很详细:http://www.cnblogs.com/itech/archive/2011/02/13/1953268.html我这里简单的使用介绍也是摘自里面。
一.简单的使用:
直接新建个python脚本:set ...
本博客属原创,转载请注明出处:http://guoyunsky.iteye.com/blog/1654505
开始要使用开源日志收集系统scribe去收集日志,花了一点时间整理了下它的各种参数.由于只是学习阶段,难免理解/翻译有误,以后再使用过程中再慢慢整理修改总结吧.
一.scribe配置参数的两种方式:
1) 通过命令行,-c commandname
2) 通过指定配置文件
二.全局参数
1)port: (number)
scribe监听的端口
以前接触过JavaCC,但没怎么深入.周末花了点时间大概学习了下.至于概念性的东西,网上一搜一大把,这里还是实战为主.一步步的深入.毕竟这东西不常用,哪天突然要用了,回过来看下,或许就能想起.由于我也是初学,博客顶多充其量是个笔记.希望对自己有用的同时,对大家也有用.
JavaCC也算得上是一门语言了,不过比较特殊.以前看Lucene源码的时候接触过,但由于Lucene的搜索语法并不复杂,所以大概看了下便能看懂.最近开始看Pig源码,其中Pig Latin也是通过JavaCC解析.由于Pig Latin相对复杂.可能Lucene只是实现SQL中的like,而Pig则 ...
由于要在开发机器上源码调试Pig,同时也要在单机上通过PIG_HOME/bin/下的pig脚本去执行Pig,以及在内网集群,生产环境上运行Pig...所以不同的配置环境会导致一些问题,比如Lzo压缩.有时明显你机器上安装了lzo,你CLASS_PATH中也加载hadoop这些配置,但还是不行.所以花了点时间,看了下Pig这方面的源码,终于搞明白.这里分享下.
pig中最终的配置都由java.util.Properties管理。通过以下四种方式来加载Pig运行所需要的配置。
1)从System.getProperty("user.home") ...
由于要开始整Storm,并且是源码级的.所以开始学习Clojure.以前听说过函数式编程,也听人说Erlang的牛逼,接触了Clojure才知道,原来Clojure就是JVM中的Erlang.网上基于Ubuntu环境下开发Clojure的资料太少,这里我整理下,实质上是相当简单!
1.安装Clojure:
可以手动的方式,但我没有尝试,具体可以看这篇博客,写的很详细:http://riddell.us/ClojureOnUbuntu.html
Ubuntu只要简单的一条命令就可以搞定:
sudo ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1420402
欢迎加入Hadoop超级群: 180941958
lzo压缩已经广泛用于Hadoop中,至于为什么要在Hadoop中使用Lzo.这里不再重述.其中很重要的一点就是由于分布式计算,所以需要支持对压缩数据进行分片,也就是Hadoop的InputSplit,这样才能分配给多台机器并行处理.所以这里花了一天的时间,看了下Hadoop lzo的源码,了解下Hadoop lzo是如何做到的.
其实一直有种误解,就是以为lzo本身是支持分布式的, ...
Nagios监控/预警Java程序网上资料貌似不多,只能自己一步步尝试.经过今天一天的尝试,终于搞定.这里贴出来跟大家分享,希望抛砖引玉!
这里需要两个步骤,一个是安装好Naigos,我之前博客有说明:http://guoyunsky.iteye.com/ ...
Shell执行/调用Java/Jar程序例子
- 博客分类:
- java
本人新浪微博:http://weibo.com/guoyunsky
最近要写一个独立的Java程序去监控Hadoop和Oozie,通过Shell去调用.写代码到现在也4年多了,貌似就从来没在生产环境中写过一个独立的Java程序,不是部署到Tomcat就是直接丢给Hadoop.于是参考Hadoop等开源环境,自己写了一个demo,并且可以通过Ant打包生成可运行的程序.所以这里有三步:Java程序,Shell,Ant
1.首先建立Java程序,由于是例子,所以这里很简单,只是输出传入参数的个数,代码如下:
package com.guoyun.study. ...
由于需要用Nagios+Ganglia监控Hadoop集群,所以这里开始了Nagios+Ganglia的旅程.Nagios官网上资料已经很详尽,但在Ubuntu上安装Nagios方面,只停留在Ubuntu 6.10和Ubuntu 7.10版本.而在Ubuntu11.10或Ubuntu10.04上安装有些错误,所以这里记录下来.具 ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1396801
欢迎加入Hadoop超级群: 180941958
最近开始监控Oozie所有workflow job,比如跟踪所有workflow job,有失败的job就邮件等通知.或者重启失败的job等.
这个异常就是发生在rerun的过程中.完整的异常如下:
Unknown exception in doAs
java.lang.reflect.UndeclaredThrowableException: Unknown exception in d ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1392535
欢迎加入Hadoop超级群: 180941958
今天下午碰到了一个诡异的Sqoop问题,一开始认为是奇迹,后来在牛人的协助下才终于找出原因.这里记录下.
我这里通过Sqoop从Mysql中导数据到HDFS,再从HDFS中读取这些数据.我们知道Sqoop会通过SQL语句先获取表结构,然后生成相应的Java类.后来我更改了SQL语句,如之前SELECT AGE,NAME FROM USER;AGE是数值型,NAME是VARCH ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1391975
欢迎加入Hadoop超级群: 180941958
网上中文资料有点少,我这里翻译下官网.对自己也是个梳理,希望对大家也有用.
Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat.
Oozie工作流中拥有多个Action,如Hadoop Map/Reuce job,Ha ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1317084
欢迎加入Hadoop超级群: 180941958
我这里以Mysql 5.1.x为例,Pig的版本是0.8
同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下:
tmp_file_1:
zhangsan 23 1
lisi 24 1
wangmazi 30 1
meinv 18 0
dama 55 0
tmp_file_2:
1 a
23 bb
...
git 学习笔记(一) Git实践
- 博客分类:
- Git
网上有很多教程,这里我自己做下整理,省得有时忘记,有道是好记性不如烂博客!
先大概描述下Git的各种命令:
git init #初始化
git clone #将远程项目拷贝到本地
git add # 提交文件更改(修改和新增)
git commit # 基于当前分支提交修改
git reset ...