`
wudixiaotie
  • 浏览: 138279 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

如何用ruby来写hadoop的mapreduce并生成jar包

    博客分类:
  • ruby
 
阅读更多

ruby来写hadoop的mapreduce,我用的方法是rubydoop。怎么配置环境呢:

1.安装rvm:

    不说了 网上有

2.安装ruby:

    由于我以前是做ruby的,所以习惯性的先安装了ruby,起码调试起来比jruby快多了。

3.安装jruby:

    rvm install jruby然后等待安装完成

4.给编写mapreduce的目录设置默认的ruby版本和gemset:

    进入到目标目录,执行rvm --create --ruby-version jruby-1.7.19@hadoop

    生成两个文件.ruby-version和.ruby-gemset,一个是定义当前目录的默认ruby版本,一个是定义默认的gemset。

    有了这两个文件已进入这个目录rvm自动帮你切换到jruby@hadoop,这样才能运行rubydoop。

5.编写代码:

    需要说明的是目录结构必须是

    ├── Gemfile

    ├── lib

    │   ├── word_count_job.rb

    │   └── word_count.rb

    └── Rakefile

    如果没有需要安装的gem,则touch个空的Gemfile就好,所有的代码都放在lib目录下。

6.生成jar包:

    rake package

7.用hadoop运行生成的jar包:

    hadoop jar build/word_count.jar word_count_job path/to/input path/to/output

3
1
分享到:
评论

相关推荐

    Hadoop MapReduce实现tfidf源码

    在大数据处理领域,Hadoop MapReduce是一种广泛应用的分布式计算框架,它使得在大规模数据集上进行并行计算成为可能。本篇文章将详细讲解如何利用Hadoop MapReduce实现TF-IDF(Term Frequency-Inverse Document ...

    Hadoop mapreduce实现wordcount

    在实际环境中,我们需要配置 Hadoop 集群,设置输入文件路径,编译并打包 WordCount 程序,最后通过 Hadoop 的 `hadoop jar` 命令提交作业到集群运行。调试时,可以查看日志输出,检查错误信息,优化性能。 通过...

    hadoop最新版本3.1.1全量jar包

    hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

    hadoop eclipse mapreduce 下开发所有需要用到的 JAR 包

    要开始在Eclipse中开发MapReduce项目,首先你需要安装以下关键的JAR包,这些包提供了Hadoop MapReduce框架的API和运行时环境: 1. **hadoop-core.jar**:这是Hadoop的主要库,包含了MapReduce的基本组件,如...

    hadoop的外部依赖jar包

    有时候在eclipse上运行项目,需要引用的Hadoop的jar包,也就是hadoop的外部依赖包,有conf,fs,io,mapreduce等等,这里列举了一部分,基本上hadoop的所有外部依赖jar包都包含在内了,如果下载了不会使用,可以看我...

    hadoop 所用的jar包

    总的来说,"hadoop 所用的jar包"是开发和运行Hadoop应用必不可少的组成部分,它们提供了Hadoop框架的核心功能和API,使得开发者能够充分利用分布式计算的优势处理大数据问题。理解和掌握这些JAR包的用途和使用方法,...

    大数据 hadoop mapreduce 词频统计

    在这个"大数据Hadoop MapReduce词频统计"的场景中,我们利用MapReduce来统计文本中的词汇出现频率。这是数据分析中一个常见的任务,有助于理解文本内容的概貌。Map阶段的任务是对输入的文本进行分词,并形成<单词, 1...

    hadoop-mapreduce-examples-2.7.1.jar

    hadoop-mapreduce-examples-2.7.1.jar

    hadoop hbase 全jar包

    MapReduce是Hadoop的计算框架,用于处理和生成大规模数据集,通过“映射”(map)和“化简”(reduce)两个阶段来实现分布式计算。 在HBase的开发中,常常需要使用到一系列的jar包,这些jar包涵盖了HBase本身及其...

    hadoop-mapreduce-examples-2.6.5.jar

    hadoop-mapreduce-examples-2.6.5.jar 官方案例源码

    Hadoop MapReduce Cookbook 源码

    《Hadoop MapReduce Cookbook 源码》是一本专注于实战的书籍,旨在帮助读者通过具体的例子深入理解并掌握Hadoop MapReduce技术。MapReduce是大数据处理领域中的核心组件,尤其在处理大规模分布式数据集时,它的重要...

    hadoop的各种jar包

    本文将详细介绍如何在Eclipse中使用Hadoop的各种JAR包,包括HDFS、MapReduce、YARN、HTTPFS和KMS,以实现高效的数据操作。 首先,我们需要理解这些组件在Hadoop生态系统中的角色: 1. HDFS(Hadoop Distributed ...

    hadoop eclipse mapreduce下开发所有需要用到的JAR包

    总结来说,"hadoop eclipse mapreduce下开发所有需要用到的JAR包"涉及到的是Hadoop MapReduce开发的环境配置,确保正确导入所有必要的依赖库,以便在Eclipse中编写、测试和运行MapReduce程序。这些JAR包是Hadoop生态...

    hadoop jar包.rar

    这个"hadop jar包.rar"文件可能包含了Hadoop运行所需的各种库文件,如HDFS客户端、MapReduce客户端、Hadoop其他组件的jar包等,使得用户可以直接在本地或者集群上运行Hadoop相关程序,无需自行编译源码。用户在使用...

    Hadoop MapReduce实战手册(完整版)

    MapReduce是Hadoop生态系统中的核心组件之一,用于处理和生成大规模数据集。该书旨在帮助读者理解并掌握如何使用MapReduce解决实际的大数据问题。 MapReduce的核心理念是将复杂的分布式计算任务分解为两个主要阶段...

    hadoop2.7.6所有jar包

    总结来说,Hadoop2.7.6的所有jar包提供了分布式计算的关键组件,包括HDFS、MapReduce、YARN以及一系列的数据处理和管理工具。通过这个压缩包,用户可以方便地集成Hadoop到自己的项目中,实现高效的大数据处理。同时...

    python hadoop mapreduce 相似用户|mapreduce.rar

    总之,这个项目旨在展示如何用Python和Hadoop MapReduce解决社交网络中的相似用户分析问题。虽然代码可能不够精致,但它提供了一个起点,让人们了解如何在实际问题中应用这两个工具。对于想要进一步学习大数据处理的...

    hadoop-mapreduce-client-jobclient-2.6.5-API文档-中文版.zip

    赠送jar包:hadoop-mapreduce-client-jobclient-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-jobclient-2.6.5-sources.jar; 赠送...

    基于Hadoop的分布式系统依赖的所有JAR包

    Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,这两个部分都需要一系列的JAR包来支持其正常运行。本资源集合了Maven、HDFS、MapReduce等相关所有JAR包及依赖,为构建基于Hadoop的分布式...

Global site tag (gtag.js) - Google Analytics