环境 hortonworks 2.3版本,ambari2.1.1, hadoop版本2.7.1
1. 下载RHadoop相关软件包
从地址(https://cran.r-project.org/src/base/R-3/)下载R语言的tar包
我下载的是:
https://cran.r-project.org/src/base/R-3/R-3.2.3.tar.gz
https://github.com/RevolutionAnalytics/rmr2/releases/download/3.3.1/rmr2_3.3.1.tar.gz
https://github.com/RevolutionAnalytics/rhdfs/blob/master/build/rhdfs_1.0.8.tar.gz
https://github.com/RevolutionAnalytics/rhbase/blob/master/build/rhbase_1.2.1.tar.gz
2. centos6.5 上安装R
然后安装相关依赖包:
#yum install gcc-gfortran
#yum install gcc gcc-c++
#yum install readline-devel
#yum install libXt-devel
# tar xvf R-3.2.3.tar.gz
# cd R-3.2.3
# ./configure
# make
# make install
3:确认Java环境变量
RHadoop依赖于rJava包,安装rJava前确认已经配置了Java环境变量,然后进行R对jvm建立连接。
[root@dataserver R-3.2.3]# cat /etc/profile结尾添加
########################################
export JAVA_HOME=/usr/java/jdk1.7.0_79
export JRE_HOME=/usr/java/jdk1.7.0_79/jre
export PATH=/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin
export CLASSPATH=.:/lib/dt.jar:/lib/tool.jar
export HADOOP_CMD=/usr/bin/hadoop
export HADOOP_STREAMING=/usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar
export HADOOP_HOME=/usr/hdp/current/hadoop-client
export JAVA_HOME JRE_HOME PATH CLASSPATH
########################################
[root@dataserver R-3.2.3]# R CMD javareconf
4:安装相关的依赖包,确保RHadoop软件包能正常使用
[root@dataserver R-3.2.3]# R
> install.packages("rJava")
> install.packages("reshape2")
> install.packages("Rcpp")
> install.packages("iterators")
> install.packages("itertools")
> install.packages("digest")
> install.packages("RJSONIO")
> install.packages("functional")
> install.packages("bitops")
> install.packages("caTools")
> quit()
或者
install.packages(c("rJava", "Rcpp", "RJSONIO", "bitops", "digest", "functional", "stringr", "plyr", "reshape2", "caTools"))
5:安装RHadoop软件包
[root@dataserver R-3.2.3]# export HADOOP_CMD=/usr/bin/hadoop
[root@dataserver R-3.2.3]# export HADOOP_STREAMING=/usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar
[root@dataserver R-3.0.2]# R CMD INSTALL rhdfs_1.0.8.tar.gz
[root@dataserver R-3.0.2]# R CMD INSTALL rmr2_3.3.1.tar.gz
[root@dataserver R-3.0.2]# R CMD INSTALL rhbase_1.2.1.tar.gz
6:使用RHadoop软件包
[root@dataserver R-3.2.3]# R
> library(rhdfs)
> hdfs.init()
> hdfs.ls("/")
[root@dataserver R-3.2.3]# export HADOOP_HOME=/usr/hdp/current/hadoop-client
> library(rmr2)
普通的R语言程序:
> small.ints = 1:10
> sapply(small.ints, function(x) x^2)
MapReduce的R语言程序:
> small.ints = to.dfs(1:10)
> mapreduce(input = small.ints, map = function(k, v) cbind(v, v^2))
> from.dfs("/tmp/RtmpWnzxl4/file5deb791fcbd5")
如果出现如下异常:
Caused by: java.io.IOException: Cannot run program "Rscript": error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048) at org.apache.hadoop.streaming.PipeMapRed.configure(PipeMapRed.java:209) ... 23 more Caused by: java.io.IOException: error=2, No such file or directory at java.lang.UNIXProcess.forkAndExec(Native Method) at java.lang.UNIXProcess.<init>(UNIXProcess.java:248) at java.lang.ProcessImpl.start(ProcessImpl.java:134) at java.lang.ProcessBuilder.start(ProcessBuilder.java:1029) ... 24 more
需要做个链接:
ln -s /usr/local/bin/Rscript /usr/bin/Rscript
如果在centos7上安装R就简单多了:
步骤如下:
yum install epel-release
yum install R
相关推荐
本文将详细讲解如何在Ubuntu操作系统中安装rhadoop模块,包括rhbase、rhdfs和rmr2这三个主要组件。 首先,我们需要理解rhadoop的组成。rhadoop是由R接口到Hadoop MapReduce(rmr2)和HDFS(rhdfs)以及R接口到HBase...
这个文档很可能是详细的RHadoop安装和配置指南,包括每一步的详细说明、截图和可能遇到的问题解决方案。如果需要深入了解RHadoop的安装,应仔细阅读这份文档。 总的来说,RHadoop提供了一种有效的方式,让R语言的...
安装RHadoop时,确保你的系统已经安装了Hadoop和所有必要的依赖项,例如Java开发工具包(JDK)。安装过程中可能会遇到版本兼容性问题,因为不同的Hadoop版本可能需要特定版本的RHadoop包。在本文件中,所有包都被...
RHadoop安装的另一个重要部分是安装rmr2、rhdfs和rhbase这三个R包。这些包不能从CRAN(综合R档案网络)下载,需要从GitHub社区获取开源代码。每个包的安装过程大致相同,例如,rhdfs包的安装需要在R环境中使用...
完成环境规划后,接下来是软件安装阶段,包括SSH、JDK和Hadoop本身的安装。 - **SSH安装与配置**:通过wget下载openssh-server、ssh等相关安装包,或者使用apt-get install ssh命令安装。之后,使用ssh-keygen -t ...
#### 六、RHadoop安装指南 1. **安装准备:** - 首先确保R及相关包已安装在集群中的每个任务节点上。 - 安装一个Hadoop集群,版本要求至少为CDH3或更高版本,或者Apache Hadoop 1.0.2或更高版本。 2. **获取...
在RHadoop的教程中,你可能会学到如何设置Hadoop环境,安装和配置RHadoop包,以及编写MapReduce作业。教程通常会通过实例展示如何使用R代码处理HDFS上的数据,进行数据清洗、转换、建模和预测。此外,还会讲解如何...
2. **RHadoop安装**: 安装RHadoop涉及到多个步骤,首先需要获取相关依赖包,例如rmr、rhdfs和rhbase,并将它们放到指定的R目录下。接着,确保安装了JDK并配置了rJava库。在R环境中,使用`install.packages()`安装...
课程可能会演示如何使用RHadoop解析、清洗和分析这类数据,例如,识别用户模式、热门活动时间或用户偏好。 7. **大数据案例研究**:通过实际的粉丝日志数据分析,学员将学习如何提出问题、设计解决方案,并使用...
7.2 RHadoop安装与使用 226 7.3 RHadoop实验:统计邮箱出现次数 233 7.4 RHadoop实现基于MapReduce的协同过滤算法 236 7.5 rHBase安装与使用 249 7.6 解决RHadoop安装错误:PipeMapRed.waitOutputThreads() ...
7.2 RHadoop安装与使用 226 7.3 RHadoop实验:统计邮箱出现次数 233 7.4 RHadoop实现基于MapReduce的协同过滤算法 236 7.5 rHBase安装与使用 249 7.6 解决RHadoop安装错误:PipeMapRed.waitOutputThreads() ...
用户需要根据提供的指南进行解压、配置和安装,以便在Red Hat系统上运行和使用rhdfs。 总的来说,rhdfs1.0.8是Red Hat针对Hadoop生态的定制化实现,它在HDFS的基础上提供了更高效、安全和易于管理的数据存储和访问...
RHadoop安装步骤1:安装Hadoop和Spark 脚本setup_reqs.sh installs a bunch of dependencies and下载Hadoop和Spark。 如果您有一个预先存在的系统,请检查相关性以确保与您的配置没有冲突。 ./setup_reqs.sh 安装...
RHadoop的使用可以分为几个主要组件,包括Rhipe、RHDFS和RHadoop等,它们各自负责不同的功能,例如Rhipe提供了R和Hadoop的接口,使R能够运行在Hadoop集群上,而RHDFS则允许R访问和操作HDFS上的数据。 Hadoop生态...
【数据分析】:"数据分析与R语言02.pdf"和"数据分析与R语言06.pdf"是关于使用R进行数据分析的实践教程,可能包括数据清洗、探索性数据分析、建模和预测等步骤。"R语言数据分析、展现与实例.pdf"则可能深入探讨R在...
在 Hadoop 集群中安装 R 环境后,通过特定的 R 包,R 可以直接调用 Hadoop 的 MapReduce、HDFS 和 HBase,实现数据的读取、处理和存储。这种架构充分发挥了 R 的统计优势和 Hadoop 的并行处理能力。 【适用场景】 ...
技术点26 在HDFS、MapReduce、Pig 和Hive 中使用数据压缩 技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计...
R语言是一种广泛使用的统计计算和图形软件,特别适合于数据分析和可视化工作。将R与Hadoop集成,可以在大数据环境下执行复杂的统计分析任务。 ##### 集成方案实施步骤: 1. **数据准备**:将需要处理的数据导入HDFS...