- 浏览: 199708 次
- 性别:
- 来自: 广州
最新评论
-
永立s:
这篇博客帮我解决了一个问题,十分感谢.
HBase表增加snappy压缩 -
BlackWing:
日志是job运行日志,看你怎么配置了,一般就在hadoop安装 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误 -
heymaomao:
heymaomao 写道有两个问题,想请教下楼主 第一是日志楼 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误 -
heymaomao:
有两个问题,想请教下楼主 第一是日志楼主到底看的是哪个日志文件 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误 -
atomduan:
本地的Unix 进程创建失败,检查下服务器内存是否够用,是不是 ...
解决Exception from container-launch: ExitCodeException exitCode=1的另类错误
文章列表
转载请标明出处:http://blackwing.iteye.com/blog/2231556
根据项亮《动态推荐系统关键技术研究》的分类方式,可以根据使用数据来把推荐技术分成以下两类:
1.按使用数据分类:
协同过滤
内容过滤
社会化过滤
基于人口信息的过滤
机遇地理信息的推荐
2.按模型分类:
领域模型
矩阵分解模型
图模型
受限于数据获得的难易程度,一般用户行为数据较为容易获取,所以也导致协同过滤相关推荐算法的流行。
项亮表示,凡是使用了用户行为数据进行运算的都可以归类为协同过滤算法,经典的有user-based协同过滤和item-based协同过滤。
亚马逊把item-b ...
转载请标明出处:http://blackwing.iteye.com/blog/2191454
网上虽然有不少关于MultipleOutputs实现多文件输出的文章,但发现要不还是使用mapred.lib旧接口,要不就是说明不清楚。
Mapper
package com.yy.hiido.itemcf.hadoop.mapper;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.ha ...
转载请标明出处:http://blackwing.iteye.com/admin/blogs/2188077
数据量大的情况下,通过直接读取HFile来获得hbase表数据性能比通过HTable读取有优势,但当读取HFile时,table同时有数据写入,那么可能因为split、compact等原因导致某些HFile不存在,导致任务失败。
如果通过hdfs的snapshot快照功能,对某个table进行快照后,在读取快照,则不会出现问题。步骤如下:
1. 把需要快照的表设置为snapshottable
hdfs dfsadmin -allowSnapshot <path>
对应的 ...
转载请标明出处:http://blackwing.iteye.com/blog/2158799
由于sentinel redis集群是搭建在组内的服务器,而某个应用需要从其他组的storm集群访问sentinel,并且组内的sentinel配置了防火墙访问规则。
sentinel对外开通的是26379端口,所以程序连接sentinel是,能正常建立对sentinel master的连接,但当需要活动pool资源时:
sentinelPool.getResource();
则报一下错误:
Could not get a resource from the pool
原来除了需要防火墙开发se ...
转载请声明出处:http://blackwing.iteye.com/blog/2152319
试用了fluentd,挺方便易用,支持直接到hdfs,hbase,mangoDB等,可以跟已有业务结合。
安装fluentd非常简单,官方教材地址:http://docs.fluentd.org/categories/installation
以下是针对ubuntu 12.04 LTS进行说明:
1.先修改系统环境,例如增加open files数目、修改网络参数等:http://docs.fluentd.org/articles/before-install
2.根据自己系统版本,直接执行官方写 ...
转载请声明出处:http://blackwing.iteye.com/blog/2147633
在使用storm的过程中,感觉它还是不如hadoop那么成熟。当然,它的流式处理能力挺让人眼前一亮,以前做的个性化推荐都是离线计算,现在总算把实时部分也加上了。
总结一下storm使用的些心得:
1.尽量把大量数据处理行为分拆成多个处理component。
2.storm不擅长保存状态,一般需要借助如redis这些外部存储比较方便实现逻辑。
3.其实跟1有点类似,不用在component(例如spout或者bolt)中保存大量数据,因为很容易撑爆内存,导致worker被kill掉。
下面是我遇到 ...
转载请标明出处:http://blackwing.iteye.com/blog/2107107
环境为hadoop2.2,在linux下运行自己的job,报如下错误:
Exception from container-launch: ExitCodeException exitCode=1:
ExitCodeException exitCode=1:
at org.apache.hadoop.util.Shell.runCommand(Shell.java:538)
at org.apache.hadoop.util.Shell.run(Shell. ...
转载请标明出处:http://blackwing.iteye.com/blog/2001416
主要参考这篇文章:https://www.digitalocean.com/community/articles/how-to-install-zabbix-on-ubuntu-configure-it-to-monitor-multiple-vps-servers
其实不用升级source也能够apt-get install,但是安装的版本是1.8,升级后安装的版本是2.0.
需求:监控自己的java程序状态,例如程序运行后,返回0是正常结束,1是出错。
zabbix除了主动从客户端拉数据外, ...
转载请标明出处:http://blackwing.iteye.com/admin/blogs/1995026
Storm已经在2013年9月放到apache,作为孵化项目,但他的apache主页居然404,真莫名。
Storm的资料如下:
1.安装集群教程
https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster
2.官方的另一个主页
http://storm-project.net/
主要步骤为:
1. 按照zookeeper集群
2. 安装依赖软件
其中主要是安装ZeroMQ和jzmq,官方 ...
转载请标明出处:http://blackwing.iteye.com/blog/1991901
之前在另一篇文章里实现的自定义job生成HFile并使用LoadIncrementalHFiles 入库HBase :http://blackwing.iteye.com/blog/1991380
但发现入库时,非常的慢,而且几次都失败了,明明官方教材说这个操作是move的:
The completebulkload utility will move generated StoreFiles into an HBase table. This utility is often used in ...
转载请标明出处:http://blackwing.iteye.com/blog/1991380
hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdfs目录。
PS:网上看到一个XD说,直接生成HFile并入库HBase效率不如先生成HFile,再通过LoadIncrementalHFiles移动文件到hbase目录高,这点没有验证,我的做法也是先生成,再 ...
转载请标明出处:http://blackwing.iteye.com/blog/1985226
网上其他的解释是,MR的in/out的key、value类型不匹配,或者job的输入输出格式不匹配导致报如下错误:
java.lang.NullPointerException
at org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73)
at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<ini ...
转载请标明出处:http://blackwing.iteye.com/blog/1981812
ivy服务器的一般应用场景是,再内网某台服务器上搭建一个共享的repository,本地连接检出需要的jar包。
1. ubuntu上安装samba
sudo apt-get install samba
2. 创建目录
在自己需要的路径下创建一个共享目录,例如: /usr/local/cluster/public
跟着修改samba的配置文件(apt-get安装后,默认在/etc/samba/smb.conf)
在文件最后添加:
[share]
path=/usr/local/clust ...
转载请标明出处:http://blackwing.iteye.com/blog/1980219
服务器上hbase用的是hadoop 2.2.0的hdfs,java程序访问hbase时报如下错误:
java.lang.NoClassDefFoundError:
org/apache/hadoop/util/PlatformName
Caused by: java.lang.ClassNotFoundException:
org.apache.hadoop.util.PlatformName
网上说的修改hadoop-config.sh这种方式应该是旧版本hadoop的解决办法 ...
转载请标明出处:http://blackwing.iteye.com/blog/1978501
org.apache.hadoop.io.Text里面的getBytes方法有个小坑。
先看现场:
String s = "91223224-20131120-96413376-150";
Text t = new Text();
t.set(s);
Put put = new Put(t.getBytes());//*1
put.add("kq".getBytes(), "0".getBytes(),&quo ...