`

RHadoop安装和使用

 
阅读更多

环境 hortonworks 2.3版本,ambari2.1.1, hadoop版本2.7.1

 

1. 下载RHadoop相关软件包

从地址(https://cran.r-project.org/src/base/R-3/)下载R语言的tar包

我下载的是:

https://cran.r-project.org/src/base/R-3/R-3.2.3.tar.gz

https://github.com/RevolutionAnalytics/rmr2/releases/download/3.3.1/rmr2_3.3.1.tar.gz

https://github.com/RevolutionAnalytics/rhdfs/blob/master/build/rhdfs_1.0.8.tar.gz

https://github.com/RevolutionAnalytics/rhbase/blob/master/build/rhbase_1.2.1.tar.gz

 

2. centos6.5 上安装R

然后安装相关依赖包:

#yum install gcc-gfortran

#yum install gcc gcc-c++

#yum install readline-devel

#yum install libXt-devel

 

# tar xvf R-3.2.3.tar.gz

# cd R-3.2.3

# ./configure

# make

# make install

 

3:确认Java环境变量

RHadoop依赖于rJava包,安装rJava前确认已经配置了Java环境变量,然后进行R对jvm建立连接。

[root@dataserver R-3.2.3]# cat /etc/profile结尾添加

########################################

export JAVA_HOME=/usr/java/jdk1.7.0_79

export JRE_HOME=/usr/java/jdk1.7.0_79/jre

export PATH=/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin

export CLASSPATH=.:/lib/dt.jar:/lib/tool.jar

export HADOOP_CMD=/usr/bin/hadoop

export HADOOP_STREAMING=/usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar

export HADOOP_HOME=/usr/hdp/current/hadoop-client

export JAVA_HOME JRE_HOME PATH CLASSPATH

########################################

[root@dataserver R-3.2.3]# R CMD javareconf

 

4:安装相关的依赖包,确保RHadoop软件包能正常使用

[root@dataserver R-3.2.3]# R 

> install.packages("rJava")

> install.packages("reshape2")

> install.packages("Rcpp")

> install.packages("iterators")

> install.packages("itertools")

> install.packages("digest")

> install.packages("RJSONIO")

> install.packages("functional")

> install.packages("bitops")

> install.packages("caTools")

> quit()

或者

install.packages(c("rJava", "Rcpp", "RJSONIO", "bitops", "digest", "functional", "stringr", "plyr", "reshape2", "caTools"))

 

5:安装RHadoop软件包

[root@dataserver R-3.2.3]# export HADOOP_CMD=/usr/bin/hadoop

[root@dataserver R-3.2.3]# export HADOOP_STREAMING=/usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar

[root@dataserver R-3.0.2]# R CMD INSTALL rhdfs_1.0.8.tar.gz

[root@dataserver R-3.0.2]# R CMD INSTALL rmr2_3.3.1.tar.gz

[root@dataserver R-3.0.2]# R CMD INSTALL rhbase_1.2.1.tar.gz

 

6:使用RHadoop软件包

[root@dataserver R-3.2.3]# R

> library(rhdfs)

> hdfs.init()

> hdfs.ls("/")

 

 

[root@dataserver R-3.2.3]# export HADOOP_HOME=/usr/hdp/current/hadoop-client

> library(rmr2)

 

 

普通的R语言程序:

> small.ints = 1:10

> sapply(small.ints, function(x) x^2)

MapReduce的R语言程序:

> small.ints = to.dfs(1:10)

> mapreduce(input = small.ints, map = function(k, v) cbind(v, v^2))

> from.dfs("/tmp/RtmpWnzxl4/file5deb791fcbd5")

 

如果出现如下异常:

Caused by: java.io.IOException: Cannot run program "Rscript": error=2, No such file or directory
        at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048)
        at org.apache.hadoop.streaming.PipeMapRed.configure(PipeMapRed.java:209)
        ... 23 more
Caused by: java.io.IOException: error=2, No such file or directory
        at java.lang.UNIXProcess.forkAndExec(Native Method)
        at java.lang.UNIXProcess.<init>(UNIXProcess.java:248)
        at java.lang.ProcessImpl.start(ProcessImpl.java:134)
        at java.lang.ProcessBuilder.start(ProcessBuilder.java:1029)
        ... 24 more

需要做个链接:

ln -s /usr/local/bin/Rscript /usr/bin/Rscript

 

 

如果在centos7上安装R就简单多了:

步骤如下:

yum install epel-release

yum install R

分享到:
评论

相关推荐

    r语言使用hadoop的模块rhadoop安装脚本

    本文将详细讲解如何在Ubuntu操作系统中安装rhadoop模块,包括rhbase、rhdfs和rmr2这三个主要组件。 首先,我们需要理解rhadoop的组成。rhadoop是由R接口到Hadoop MapReduce(rmr2)和HDFS(rhdfs)以及R接口到HBase...

    RHadoop安装配置(基于HADOOP2.2)

    这个文档很可能是详细的RHadoop安装和配置指南,包括每一步的详细说明、截图和可能遇到的问题解决方案。如果需要深入了解RHadoop的安装,应仔细阅读这份文档。 总的来说,RHadoop提供了一种有效的方式,让R语言的...

    RHadoop库(能够兼容使用)

    安装RHadoop时,确保你的系统已经安装了Hadoop和所有必要的依赖项,例如Java开发工具包(JDK)。安装过程中可能会遇到版本兼容性问题,因为不同的Hadoop版本可能需要特定版本的RHadoop包。在本文件中,所有包都被...

    Rhadoop 资料

    RHadoop安装的另一个重要部分是安装rmr2、rhdfs和rhbase这三个R包。这些包不能从CRAN(综合R档案网络)下载,需要从GitHub社区获取开源代码。每个包的安装过程大致相同,例如,rhdfs包的安装需要在R环境中使用...

    RHadoop基础及高级分析

    完成环境规划后,接下来是软件安装阶段,包括SSH、JDK和Hadoop本身的安装。 - **SSH安装与配置**:通过wget下载openssh-server、ssh等相关安装包,或者使用apt-get install ssh命令安装。之后,使用ssh-keygen -t ...

    Big Data Analysis With RHadoop

    #### 六、RHadoop安装指南 1. **安装准备:** - 首先确保R及相关包已安装在集群中的每个任务节点上。 - 安装一个Hadoop集群,版本要求至少为CDH3或更高版本,或者Apache Hadoop 1.0.2或更高版本。 2. **获取...

    RHadoop-tutorial:使用RHadoop项目的R和Hadoop教程

    在RHadoop的教程中,你可能会学到如何设置Hadoop环境,安装和配置RHadoop包,以及编写MapReduce作业。教程通常会通过实例展示如何使用R代码处理HDFS上的数据,进行数据清洗、转换、建模和预测。此外,还会讲解如何...

    大数据必修课 数据科学课程 R语言教程含练习题 第13章 RHadoop 共19页.pptx

    2. **RHadoop安装**: 安装RHadoop涉及到多个步骤,首先需要获取相关依赖包,例如rmr、rhdfs和rhbase,并将它们放到指定的R目录下。接着,确保安装了JDK并配置了rJava库。在R环境中,使用`install.packages()`安装...

    RHadoop培训 之 R基础课 _ 粉丝日志_files

    课程可能会演示如何使用RHadoop解析、清洗和分析这类数据,例如,识别用户模式、热门活动时间或用户偏好。 7. **大数据案例研究**:通过实际的粉丝日志数据分析,学员将学习如何提出问题、设计解决方案,并使用...

    R的极客理想:工具篇 带书签扫描版(1/2)

    7.2 RHadoop安装与使用 226 7.3 RHadoop实验:统计邮箱出现次数 233 7.4 RHadoop实现基于MapReduce的协同过滤算法 236 7.5 rHBase安装与使用 249 7.6 解决RHadoop安装错误:PipeMapRed.waitOutputThreads() ...

    R的极客理想:工具篇 带书签扫描版(2/2)

    7.2 RHadoop安装与使用 226 7.3 RHadoop实验:统计邮箱出现次数 233 7.4 RHadoop实现基于MapReduce的协同过滤算法 236 7.5 rHBase安装与使用 249 7.6 解决RHadoop安装错误:PipeMapRed.waitOutputThreads() ...

    rhdfs1.0.8

    用户需要根据提供的指南进行解压、配置和安装,以便在Red Hat系统上运行和使用rhdfs。 总的来说,rhdfs1.0.8是Red Hat针对Hadoop生态的定制化实现,它在HDFS的基础上提供了更高效、安全和易于管理的数据存储和访问...

    cuny_msda_is622:CUNY MS Data Anayltics课程IS622大数据与机器学习的资源

    RHadoop安装步骤1:安装Hadoop和Spark 脚本setup_reqs.sh installs a bunch of dependencies and下载Hadoop和Spark。 如果您有一个预先存在的系统,请检查相关性以确保与您的配置没有冲突。 ./setup_reqs.sh 安装...

    Big Data Analytics with R and Hadoop

    RHadoop的使用可以分为几个主要组件,包括Rhipe、RHDFS和RHadoop等,它们各自负责不同的功能,例如Rhipe提供了R和Hadoop的接口,使R能够运行在Hadoop集群上,而RHDFS则允许R访问和操作HDFS上的数据。 Hadoop生态...

    R语言.zip以及相关的资源和教程

    【数据分析】:"数据分析与R语言02.pdf"和"数据分析与R语言06.pdf"是关于使用R进行数据分析的实践教程,可能包括数据清洗、探索性数据分析、建模和预测等步骤。"R语言数据分析、展现与实例.pdf"则可能深入探讨R在...

    大数据挖掘工具资料收集之RhadoopV1.0.pdf

    在 Hadoop 集群中安装 R 环境后,通过特定的 R 包,R 可以直接调用 Hadoop 的 MapReduce、HDFS 和 HBase,实现数据的读取、处理和存储。这种架构充分发挥了 R 的统计优势和 Hadoop 的并行处理能力。 【适用场景】 ...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    技术点26 在HDFS、MapReduce、Pig 和Hive 中使用数据压缩 技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计...

    大数据集成方案:Oracle+Hadoop,R+Hadoop ... x+Hadoop,数据集成实战案例

    R语言是一种广泛使用的统计计算和图形软件,特别适合于数据分析和可视化工作。将R与Hadoop集成,可以在大数据环境下执行复杂的统计分析任务。 ##### 集成方案实施步骤: 1. **数据准备**:将需要处理的数据导入HDFS...

Global site tag (gtag.js) - Google Analytics