Cloudera Hadoop CDH上安装R及RHadoop(rhdfs/rmr2/rhbase/RHive)

博客分类：

hadoop

转自：http://www.geedoo.info/installed-on-the-cloudera-hadoop-cdh-r-and-rhadoop-rhdfs-rmr2-rhbase-rhive.html 前言：RHadoop是由Revolution Analytics发起的一个开源项目，它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages，分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。一、系统及所需软件版本服务器操作系统：CentOS 6.3 R语言版本：R-2. ...

2013-10-12 10:24
浏览 1672
评论(0)
分类:研发管理

eclipse Exception Java heap space

博客分类：

bug

一直都知道可以设置jvm heap大小，一直用eclipse写/调试java程序。一直用命令行or console加参数跑程序。现象：在eclipse的配置文件eclipse.ini中设置-vmargs -Xms500m -Xmx1024m，在eclipse中直接run 或者debug某些耗内存的程序时依然出现java.lang.Ou ...

2013-02-20 15:49
浏览 839
评论(0)
分类:开源软件

MRUnit测试教程

博客分类：

hadoop

https://cwiki.apache.org/confluence/display/MRUNIT/MRUnit+Tutorial

2013-02-19 19:31
浏览 954
评论(0)
分类:编程语言

MRUnit使用

博客分类：

hadoop

MRUnit是一个用于测试mapreduce程序的java框架，它可以很方便地测试Mapper和rudecer程序使用方法：在maven中加入下面配置： <dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>0.9.0-incubating</version> <classifier>hadoop2&l ...

2013-02-19 19:15
浏览 1438
评论(0)
分类:编程语言

LINUX下单机安装HADOOP+HIVE手册

博客分类：

hadoop

HADOOP篇 HADOOP安装 1.tar -zvxf hadoop-0.19.2.tar.gz 2.HADOOP的安装路径添加到环境文件/etc/profile中： export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2export PATH=$HADOOP_HOME/bin:$PATH HADOOP配置 1.在$HADOOP/conf/hadoop-env.sh中配置JAVA环境 export JAVA_HOME=/home/hadoop/setup/jdk1.7.0_04 2.在$HADOOP/conf/hadoo ...

2013-02-17 14:07
浏览 1746
评论(0)
分类:企业架构

【整理】MySQL引擎

博客分类：

数据库

【整理】MySQL引擎 MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的。要添加一个新的引擎，就必须重新编译MYSQL。在缺省情况下，MYSQL支持三个引擎：ISAM、MYISAM和HEAP。另外两种类型INNODB和BERKLEY（BDB），也常常可以使用。如果技术高超，还可以使用MySQL++ API自己做一个引擎。下面介绍几种数据库引擎： ISAM：ISAM是一个定义明确且历经时间考验的数据表格管理方法，它在设计之时就考虑到数据库被查询的次数要远大于更新的次数。因此，ISAM执行读取操作的速度很快，而且不占用大量的内存和存储资源。ISAM的两个主 ...

2013-01-14 10:32
浏览 835
评论(0)
分类:数据库

hadoop的mapreduce作业中经常出现Java heap space解决方案

博客分类：

Hive

我在进行两个大表的join时，任务显示成功，但Hadoop出现以下异常：报出错误如下： java.lang.RuntimeException:java.lang.reflect.InvocationTargetException at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:81) at org.apache.hadoop.io.WritableUtils.clone(WritableUtils.java:231) at com.***. ...

2012-12-18 16:31
浏览 7947
评论(0)
分类:Web前端

Hive 优化-限制用户误交大作业查询

博客分类：

Hive

最近有些同事些sql进行查询时，sql语句里不指定partition字段，这样直接造成hive生成Hadoop的MapReduce任务时查询的数据量巨大，从而影响整个集群的性能。经研究可以通过配置Hive参数来预防此类错误，从而达到优化的目的。在hive-site.xml中添加以下配置： <property><name>hive.mapred.mode</name> <value>strict</value></proper ...

2012-12-16 12:18
浏览 1816
评论(0)
分类:编程语言

Hive 查询优化【引文】

博客分类：

Hive

一、join优化 Join查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个mapred程序中。案例： SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) ...

2012-12-16 11:18
浏览 1000
评论(0)
分类:编程语言

linux zip 命令详解

博客分类：

Linux命令

linux zip 命令详解功能说明：压缩文件。语法：zip [-AcdDfFghjJKlLmoqrSTuvVwXyz$][-b <工作目录>][-ll][-n <字尾字符串>][-t <日期时间>][-<压缩效率>][压缩文件][文件...][-i <范本样式>][-x <范本样式>] 补充说明：zip是个使用广泛的压缩程序，文件经它压缩后会另外产生具有".zip"扩展名的压缩文件。参数： -A 调整可执行的自动解压缩文件。 -b<工作目录> 指定暂时存放文件的目录。 -c ...

2012-12-05 10:52
浏览 969
评论(0)
分类:研发管理

Zookeeper集群安装部署

博客分类：

zookeeper

准备 1. 下载zookeeper，下载地址http://www.apache.org/dyn/closer.cgi/zookeeper，此处为zookeeper-3.3.2 2. 分别解压至zookeepr集群机器（一般为基数台机器）相应目录（此处为$ZOOKEEPER_HOME），集群为mem1，mem2，mem3（hosts对应）。配置 1.

2012-10-09 11:57
浏览 1198
评论(0)
分类:开源软件

Hadoop的shell脚本分析

博客分类：

hadoop

Hadoop的shell脚本分析这些天一直学习hadoop,学习中也遇到了许多的问题，主要是对hadoop的shell脚本和hadoop的源码概念不够清楚，所以我就对hadoop的bin目录下的shell脚本进行了研究，有一些成果想记录下来。脚本分析： bin=`dirname "$0"` bin=`cd "$bin"; pwd` if [ -e "$bin/../libexec/hadoop-config.sh" ]; then . "$bin"/../libex ...

2012-09-17 17:57
浏览 2302
评论(0)
分类:研发管理

单机版搭建hadoop环境图文解析

博客分类：

hadoop

单机版搭建hadoop环境图文解析安装过程：一、安装Linux操作系统二、在Ubuntu下创建hadoop用户组和用户三、在Ubuntu下安装JDK四、修改机器名五、安装ssh服务

2012-09-17 17:31
浏览 1118
评论(0)
分类:研发管理

MongoDB主从复制认证要点

1、主服务器和从服务器必须开启安全认证:--auth2、主服务器和从服务器的admin数据库中必须有全局用户。在MongoDB2.0.2版本测试时，从服务器的admin数据库中没有全局用户时也能进行复制，尽管admin中无用户，客户端连接此服务器不进行验证（即--auth参数失效），但从服务器的--auth必须指定。既然启用了--auth，就应该在从服务器的admin中增加一个用户。3、主服务器的local数据库和从服务器的local数据均有名为repl且密码相同的用户名。4、主服务器设置： mongod --port 10000 --dbpath datam --logpath ...

2012-07-31 20:06
浏览 1257
评论(0)
分类:企业架构

Nginx启动出错 error while loading shared libraries:

博客分类：

Nginx

root@localhost conf]# /usr/local/nginx/sbin/nginx/usr/local/nginx/sbin/nginx: error while loading shared libraries: libpcre.so.1: cannot open shared object file: No such file or directory 从错误看出是缺少lib文件导致，进一步查看下 [root@localhost conf]# ldd $(which /usr/local/nginx/sbin/nginx)linux-gate.so.1 => ( ...

2012-07-12 17:19
浏览 1854
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Cloudera Hadoop CDH上安装R及RHadoop(rhdfs/rmr2/rhbase/RHive)

eclipse Exception Java heap space

MRUnit测试教程

MRUnit使用

LINUX下单机安装HADOOP+HIVE手册

【整理】MySQL引擎

hadoop的mapreduce作业中经常出现Java heap space解决方案

Hive 优化-限制用户误交大作业查询

Hive 查询优化【引文】

linux zip 命令详解

Zookeeper集群安装部署

Hadoop的shell脚本分析

单机版搭建hadoop环境图文解析

MongoDB主从复制认证要点

Nginx启动出错 error while loading shared libraries:

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>