如何用ruby来写hadoop的mapreduce并生成jar包 - 日子头上一把刀--DRY&&KISS - ITeye博客

`

wudixiaotie

浏览: 143260 次
性别:
来自: 北京

最近访客更多访客>>

westsum

lzzzlzz

zhg170

孔已己

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wudixiaotie： white_crucifix 写道吓死宝宝了，以为有erlan ...
erlang hibernate
white_crucifix：吓死宝宝了，以为有erlang版的hibernate框架
erlang hibernate
zzjmates： ...
rails缓存清空
wudixiaotie：没用过rubymine
rails调试
string2020：和工具(rubymine)提供的调试方式比,那个好
rails调试

如何用ruby来写hadoop的mapreduce并生成jar包

博客分类：

ruby

阅读更多

ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢：

1.安装rvm：

不说了网上有

2.安装ruby：

由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。

3.安装jruby：

rvm install jruby然后等待安装完成

4.给编写mapreduce的目录设置默认的ruby版本和gemset：

进入到目标目录，执行rvm --create --ruby-version jruby-1.7.19@hadoop

生成两个文件.ruby-version和.ruby-gemset，一个是定义当前目录的默认ruby版本，一个是定义默认的gemset。

有了这两个文件已进入这个目录rvm自动帮你切换到jruby@hadoop，这样才能运行rubydoop。

5.编写代码：

需要说明的是目录结构必须是

├── Gemfile

├── lib

│ ├── word_count_job.rb

│ └── word_count.rb

└── Rakefile

如果没有需要安装的gem，则touch个空的Gemfile就好，所有的代码都放在lib目录下。

6.生成jar包：

rake package

7.用hadoop运行生成的jar包：

hadoop jar build/word_count.jar word_count_job path/to/input path/to/output

3
顶

1
踩

分享到：

hadoop学习笔记 | rust的指针作为函数参数是直接传递，还是先 ...

2015-07-17 19:09
浏览 663
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop MapReduce实现tfidf源码: 在大数据处理领域，Hadoop MapReduce是一种广泛应用的分布式计算框架，它使得在大规模数据集上进行并行计算成为可能。本篇文章将详细讲解如何利用Hadoop MapReduce实现TF-IDF（Term Frequency-Inverse Document ...

Hadoop mapreduce实现wordcount: 在实际环境中，我们需要配置 Hadoop 集群，设置输入文件路径，编译并打包 WordCount 程序，最后通过 Hadoop 的 `hadoop jar` 命令提交作业到集群运行。调试时，可以查看日志输出，检查错误信息，优化性能。通过...

hadoop-mapreduce-examples-2.6.5.jar: hadoop-mapreduce-examples-2.6.5.jar 官方案例源码

hadoop最新版本3.1.1全量jar包: hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

hadoop eclipse mapreduce 下开发所有需要用到的 JAR 包: 要开始在Eclipse中开发MapReduce项目，首先你需要安装以下关键的JAR包，这些包提供了Hadoop MapReduce框架的API和运行时环境： 1. **hadoop-core.jar**：这是Hadoop的主要库，包含了MapReduce的基本组件，如...

hadoop的外部依赖jar包: 有时候在eclipse上运行项目，需要引用的Hadoop的jar包，也就是hadoop的外部依赖包，有conf，fs，io，mapreduce等等，这里列举了一部分，基本上hadoop的所有外部依赖jar包都包含在内了，如果下载了不会使用，可以看我...

hadoop 所用的jar包: 总的来说，"hadoop 所用的jar包"是开发和运行Hadoop应用必不可少的组成部分，它们提供了Hadoop框架的核心功能和API，使得开发者能够充分利用分布式计算的优势处理大数据问题。理解和掌握这些JAR包的用途和使用方法，...

hadoop-mapreduce-examples-2.7.1.jar: hadoop-mapreduce-examples-2.7.1.jar

大数据 hadoop mapreduce 词频统计: 在这个"大数据Hadoop MapReduce词频统计"的场景中，我们利用MapReduce来统计文本中的词汇出现频率。这是数据分析中一个常见的任务，有助于理解文本内容的概貌。Map阶段的任务是对输入的文本进行分词，并形成<单词, 1...

hadoop hbase 全jar包: MapReduce是Hadoop的计算框架，用于处理和生成大规模数据集，通过“映射”（map）和“化简”（reduce）两个阶段来实现分布式计算。在HBase的开发中，常常需要使用到一系列的jar包，这些jar包涵盖了HBase本身及其...

Hadoop MapReduce Cookbook 源码: 《Hadoop MapReduce Cookbook 源码》是一本专注于实战的书籍，旨在帮助读者通过具体的例子深入理解并掌握Hadoop MapReduce技术。MapReduce是大数据处理领域中的核心组件，尤其在处理大规模分布式数据集时，它的重要...

hadoop的各种jar包: 本文将详细介绍如何在Eclipse中使用Hadoop的各种JAR包，包括HDFS、MapReduce、YARN、HTTPFS和KMS，以实现高效的数据操作。首先，我们需要理解这些组件在Hadoop生态系统中的角色： 1. HDFS（Hadoop Distributed ...

hadoop eclipse mapreduce下开发所有需要用到的JAR包: 总结来说，"hadoop eclipse mapreduce下开发所有需要用到的JAR包"涉及到的是Hadoop MapReduce开发的环境配置，确保正确导入所有必要的依赖库，以便在Eclipse中编写、测试和运行MapReduce程序。这些JAR包是Hadoop生态...

hadoop jar包.rar: 这个"hadop jar包.rar"文件可能包含了Hadoop运行所需的各种库文件，如HDFS客户端、MapReduce客户端、Hadoop其他组件的jar包等，使得用户可以直接在本地或者集群上运行Hadoop相关程序，无需自行编译源码。用户在使用...

Hadoop MapReduce实战手册(完整版): MapReduce是Hadoop生态系统中的核心组件之一，用于处理和生成大规模数据集。该书旨在帮助读者理解并掌握如何使用MapReduce解决实际的大数据问题。 MapReduce的核心理念是将复杂的分布式计算任务分解为两个主要阶段...

hadoop2.7.6所有jar包: 总结来说，Hadoop2.7.6的所有jar包提供了分布式计算的关键组件，包括HDFS、MapReduce、YARN以及一系列的数据处理和管理工具。通过这个压缩包，用户可以方便地集成Hadoop到自己的项目中，实现高效的大数据处理。同时...

python hadoop mapreduce 相似用户|mapreduce.rar: 总之，这个项目旨在展示如何用Python和Hadoop MapReduce解决社交网络中的相似用户分析问题。虽然代码可能不够精致，但它提供了一个起点，让人们了解如何在实际问题中应用这两个工具。对于想要进一步学习大数据处理的...

hadoop-mapreduce-client-jobclient-2.6.5-API文档-中文版.zip: 赠送jar包：hadoop-mapreduce-client-jobclient-2.6.5.jar；赠送原API文档：hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar；赠送源代码：hadoop-mapreduce-client-jobclient-2.6.5-sources.jar；赠送...

基于Hadoop的分布式系统依赖的所有JAR包: Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce，这两个部分都需要一系列的JAR包来支持其正常运行。本资源集合了Maven、HDFS、MapReduce等相关所有JAR包及依赖，为构建基于Hadoop的分布式...

Global site tag (gtag.js) - Google Analytics