新版hadoop MultipleOutputs多文件输出

博客分类：

hadoop

转载请标明出处：http://blackwing.iteye.com/blog/2191454 网上虽然有不少关于MultipleOutputs实现多文件输出的文章，但发现要不还是使用mapred.lib旧接口，要不就是说明不清楚。 Mapper package com.yy.hiido.itemcf.hadoop.mapper; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.ha ...

2015-03-11 14:22
浏览 3539
评论(0)
分类:开源软件

解决直接读HFile时因表数据写入而导致文件目录变化问题

博客分类：

hadoop
HBase

hbase Hadoop snapshot

转载请标明出处：http://blackwing.iteye.com/admin/blogs/2188077 数据量大的情况下，通过直接读取HFile来获得hbase表数据性能比通过HTable读取有优势，但当读取HFile时，table同时有数据写入，那么可能因为split、compact等原因导致某些HFile不存在，导致任务失败。如果通过hdfs的snapshot快照功能，对某个table进行快照后，在读取快照，则不会出现问题。步骤如下： 1. 把需要快照的表设置为snapshottable hdfs dfsadmin -allowSnapshot <path> 对应的 ...

2015-03-02 18:22
浏览 1554
评论(0)
分类:开源软件

另一种reids的Could not get a resource from the pool原因

博客分类：

NoSQL

redis

转载请标明出处：http://blackwing.iteye.com/blog/2158799 由于sentinel redis集群是搭建在组内的服务器，而某个应用需要从其他组的storm集群访问sentinel，并且组内的sentinel配置了防火墙访问规则。 sentinel对外开通的是26379端口，所以程序连接sentinel是，能正常建立对sentinel master的连接，但当需要活动pool资源时： sentinelPool.getResource(); 则报一下错误： Could not get a resource from the pool 原来除了需要防火墙开发se ...

2014-11-21 11:20
浏览 3589
评论(0)
分类:开源软件

日志收集器fluentd：配置forward从客户机到收集入库端

博客分类：

其它

ubuntu fluentd

转载请声明出处：http://blackwing.iteye.com/blog/2152319 试用了fluentd，挺方便易用，支持直接到hdfs，hbase，mangoDB等，可以跟已有业务结合。安装fluentd非常简单，官方教材地址：http://docs.fluentd.org/categories/installation 以下是针对ubuntu 12.04 LTS进行说明： 1.先修改系统环境，例如增加open files数目、修改网络参数等：http://docs.fluentd.org/articles/before-install 2.根据自己系统版本，直接执行官方写 ...

2014-11-04 16:41
浏览 4137
评论(0)
分类:开源软件

那些storm的坑坑

博客分类：

storm

storm

转载请声明出处：http://blackwing.iteye.com/blog/2147633 在使用storm的过程中，感觉它还是不如hadoop那么成熟。当然，它的流式处理能力挺让人眼前一亮，以前做的个性化推荐都是离线计算，现在总算把实时部分也加上了。总结一下storm使用的些心得： 1.尽量把大量数据处理行为分拆成多个处理component。 2.storm不擅长保存状态，一般需要借助如redis这些外部存储比较方便实现逻辑。 3.其实跟1有点类似，不用在component（例如spout或者bolt）中保存大量数据，因为很容易撑爆内存，导致worker被kill掉。下面是我遇到 ...

2014-10-24 17:01
浏览 2870
评论(0)
分类:开源软件

解决Exception from container-launch: ExitCodeException exitCode=1的另类错误

博客分类：

hadoop

hadoop linux

转载请标明出处：http://blackwing.iteye.com/blog/2107107 环境为hadoop2.2，在linux下运行自己的job，报如下错误： Exception from container-launch: ExitCodeException exitCode=1: ExitCodeException exitCode=1: at org.apache.hadoop.util.Shell.runCommand(Shell.java:538) at org.apache.hadoop.util.Shell.run(Shell. ...

2014-08-21 18:18
浏览 23977
评论(4)
分类:开源软件

ubuntu 12.04 LTS下安装zabbix

博客分类：

监控

zabbix 系统监控

转载请标明出处：http://blackwing.iteye.com/blog/2001416 主要参考这篇文章：https://www.digitalocean.com/community/articles/how-to-install-zabbix-on-ubuntu-configure-it-to-monitor-multiple-vps-servers 其实不用升级source也能够apt-get install，但是安装的版本是1.8，升级后安装的版本是2.0. 需求：监控自己的java程序状态，例如程序运行后，返回0是正常结束，1是出错。 zabbix除了主动从客户端拉数据外， ...

2014-01-08 17:20
浏览 1852
评论(0)
分类:开源软件

ubuntu 12.04LTS下安装Storm 0.9

博客分类：

storm
zookeeper

storm ubuntu

转载请标明出处：http://blackwing.iteye.com/admin/blogs/1995026 Storm已经在2013年9月放到apache，作为孵化项目，但他的apache主页居然404，真莫名。 Storm的资料如下： 1.安装集群教程 https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster 2.官方的另一个主页 http://storm-project.net/ 主要步骤为： 1. 按照zookeeper集群 2. 安装依赖软件其中主要是安装ZeroMQ和jzmq，官方 ...

2013-12-24 18:41
浏览 1851
评论(0)
分类:开源软件

LoadIncrementalHFiles是copy而不是move的疑惑

博客分类：

HBase
hadoop

hbase Hadoop LoadIncrementalHFiles completebulkload

转载请标明出处：http://blackwing.iteye.com/blog/1991901 之前在另一篇文章里实现的自定义job生成HFile并使用LoadIncrementalHFiles 入库HBase ：http://blackwing.iteye.com/blog/1991380 但发现入库时，非常的慢，而且几次都失败了，明明官方教材说这个操作是move的： The completebulkload utility will move generated StoreFiles into an HBase table. This utility is often used in ...

2013-12-19 10:57
浏览 4181
评论(0)
分类:开源软件

Hadoop生成HFile直接入库HBase心得

博客分类：

HBase
hadoop

hbase hadoop HFile

转载请标明出处：http://blackwing.iteye.com/blog/1991380 hbase自带了ImportTsv类，可以直接把tsv格式（官方教材显示，是\t分割各个字段的文本格式）生成HFile，并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdfs目录。 PS:网上看到一个XD说，直接生成HFile并入库HBase效率不如先生成HFile，再通过LoadIncrementalHFiles移动文件到hbase目录高，这点没有验证，我的做法也是先生成，再 ...

2013-12-18 16:15
浏览 5299
评论(0)
分类:开源软件

NullPointerException SerializationFactory.getSerializer解决

博客分类：

hadoop

hadoop SerializationFactory.getSerializer

转载请标明出处：http://blackwing.iteye.com/blog/1985226 网上其他的解释是，MR的in/out的key、value类型不匹配，或者job的输入输出格式不匹配导致报如下错误： java.lang.NullPointerException at org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<ini ...

2013-12-04 17:30
浏览 1666
评论(0)
分类:开源软件

搭建ivy服务器

博客分类：

ant / ivy
Linux

eclipse ubuntu ant ivy

转载请标明出处：http://blackwing.iteye.com/blog/1981812 ivy服务器的一般应用场景是，再内网某台服务器上搭建一个共享的repository，本地连接检出需要的jar包。 1. ubuntu上安装samba sudo apt-get install samba 2. 创建目录在自己需要的路径下创建一个共享目录，例如: /usr/local/cluster/public 跟着修改samba的配置文件（apt-get安装后，默认在/etc/samba/smb.conf）在文件最后添加： [share] path=/usr/local/clust ...

2013-11-27 18:24
浏览 2617
评论(0)
分类:行业应用

ClassNotFoundException: org.apache.hadoop.util.PlatformName问题解决

hadoop hbase PlatformName

转载请标明出处：http://blackwing.iteye.com/blog/1980219 服务器上hbase用的是hadoop 2.2.0的hdfs，java程序访问hbase时报如下错误： java.lang.NoClassDefFoundError: org/apache/hadoop/util/PlatformName Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.util.PlatformName 网上说的修改hadoop-config.sh这种方式应该是旧版本hadoop的解决办法 ...

2013-11-25 14:40
浏览 6352
评论(0)
分类:开源软件

Hadoop的Text类getBytes字节数据put到HBase后有多余字符串问题

博客分类：

HBase
hadoop

hbase hadoop Text

转载请标明出处：http://blackwing.iteye.com/blog/1978501 org.apache.hadoop.io.Text里面的getBytes方法有个小坑。先看现场： String s = "91223224-20131120-96413376-150"; Text t = new Text(); t.set(s); Put put = new Put(t.getBytes());//*1 put.add("kq".getBytes(), "0".getBytes(),&quo ...

2013-11-21 15:53
浏览 2161
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

推荐技术简介

新版hadoop MultipleOutputs多文件输出

解决直接读HFile时因表数据写入而导致文件目录变化问题

另一种reids的Could not get a resource from the pool原因

日志收集器fluentd：配置forward从客户机到收集入库端

那些storm的坑坑

解决Exception from container-launch: ExitCodeException exitCode=1的另类错误

ubuntu 12.04 LTS下安装zabbix

ubuntu 12.04LTS下安装Storm 0.9

LoadIncrementalHFiles是copy而不是move的疑惑

Hadoop生成HFile直接入库HBase心得

NullPointerException SerializationFactory.getSerializer解决

搭建ivy服务器

ClassNotFoundException: org.apache.hadoop.util.PlatformName问题解决

Hadoop的Text类getBytes字节数据put到HBase后有多余字符串问题

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>