阅读更多
Hadoop擅长分析和处理大型数据集,而MongoDB擅长存储应用程序的大型数据集,这两者结合到一起,就诞生了Mongo-Hadoop——MongoDB主要负责存储和查询,Hadoop主要负责批处理。

今天Mongo开发团队发布了Mongo-Hadoop 1.1版本。

项目地址:https://github.com/mongodb/mongo-hadoop

Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数据集就可以快速被处理。

Mongo-Hadoop支持PigHive,这两个开源项目允许编写非常简单的脚本来执行非常复杂的MapReduce工作流。

Mongo-Hadoop还支持Hadoop streaming,这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。目前Mongo-Hadoop支持Ruby、Node.js和Python中的streaming。

Mongo-Hadoop的工作流程如下:

  • Mongo-Hadoop首先检查MongoDB Collection,并计算数据分割
  • 每个分割部分被分配到Hadoop集群中的一个节点
  • 同时,Hadoop节点从MongoDB(或BSON)获取数据,并进行本地处理
  • Hadoop合并结果,并输出到MongoDB或BSON
详细信息:http://blog.mongodb.org/post/57611443904/mongo-hadoop-1-1
6
0
评论 共 1 条 请登录后发表评论
1 楼 yun900800 2013-08-14 09:06
[color=darkred][/color]22
[size=x-small][/size]

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • mongo-hadoop:适用于HadoopMongoDB连接器

    用于HadoopMongoDB连接器是一个库,该库允许将MongoDB(或数据格式为BSON的备份文件)用作Hadoop MapReduce任务的输入源或输出目标。 它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分...

  • Linux的桌面环境比较与选择(gnome、kde、xfce、lxde 等)

    linux操作系统因为逐步优化了图形桌面、增加了非服务器端个人应用,普通用户越来越多的也转入linux阵营。但是linux的图形桌面繁多,到底选择哪一个好,是否是自己喜欢的风格,资源占用情况高不高,下面给大家提供一个选择前参考。 GNOME 2.x GNOME 2.x 作为大家熟识的传统界面,默认2个面板。在系统资源占用方面,GNOME 2.x 较GNOME 3 要求 RAM 较少、CPU较高。在这两个方面: XFCE ,LXDE < GNOME 2.x 在目前发行版本中,LIn...

  • mongo-hadoop集成

    当hadoop集群需要借助mongodb的数据进行辅助分析时,为了快速实施我们需要将hive集成...wgethttps://repo1.maven.org/maven2/org/mongodb/mongo-hadoop/mongo-hadoop-core/2.0.2/mongo-hadoop-core-2.0.2.jar;​ ​ w..

  • mongo-hadoop-core-2.0.0

    mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

  • mongo-hadoop-core-1.2.1-SNAPSHOT-hadoop_1.0

    The MongoDB Connector for Hadoop is a library which allows MongoDB (or backup files in its data format, BSON) to be used as an input source, or output destination, for Hadoop MapReduce tasks....

  • mongo-hadoop-hive-2.0.0

    mongo-hadoop-hive-2.0.0.jar xx cc vvs . dd s . s ww w .

  • flink DataSet 连接 mongos集群使用mongo-hadoop

    flink 官方示例比较简单,也很久没更新过了。...这里是单线程读取,还不清楚可不可以通过配置实现并行读取。 import com.mongodb.hadoop.MongoInputFormat; import com.mongodb.hadoop.MongoOutputFormat; impo...

  • hadoop(番外)——mongodb-hadoop(基础配置)

    简介 mongo-hadoop是用于Hadoop的MongoDB连接器是一个库...它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分轻松集成。 下载地址:https://github.com/mongodb/mongo-hadoop 跳转→ 特...

  • 通过mongo-hadoop(pymongo_spark)从PySpark保存数据到MongoDB

    PySpark to connect to MongoDB via mongo-hadoop 二、配置步骤 (注意版本作相应调整,spark-2.4.3,hadoop2.7,Scala2.11) 1. # Get the MongoDB Java Driver #PROJECT_HOME 自定义的项目根目录,下面...

  • 在 EMR 中使用 Mongo-Hadoop

    Mongo-Hadoop 是 MongoDB 推出的用于 Hadoop 系列组件连接 MongoDB 的组件。其原理跟我们上一篇文章介绍的 ES-Hadoop 类似。EMR 中已经集成了 Mongo-Hadoop,用户不用做任何部署配置,即可使用 Mongo-Hadoop。下面...

  • MUG-Nantes-Demo-Hadoop:适用于HadoopMongoDB连接器演示

    MongoDB Hadoop演示连接器 幻灯片: : 步骤0-建立 Java cd spark/java mvn clean package assembly:single 第1步-导入数据 清洁(蒙古壳) use marketdata db.stock_prices.drop () 资料来源:cf。 进口 mongo...

  • 矿大京-大数据技术实验课-Hadoop集群下的数据库操作

    在给定的Ubuntu Linux+hadoop3.1.3环境上,分别用hbase、redis、mongodb、hive(redis、mongodb、hive需自行安装,无版本要求)所属的shell命令,建立相应数据结构,并增加本人的学号、姓名、性别、数据库课程成绩,...

  • MongoDB北京2014 - MongoDB和Hadoop 完美大数据方案 - 周思远

  • Mongo-Hadoop

    https://github.com/mongodb/mongo-hadoop/releases   解压到/home/kevin/hadoop/hadoop/share/mongo-hadoop-2.2-1.2.0 (其实是任意,真正分布式的时候要注意这个jar包的问题)   Mapreduce结果输出到MongDB 要...

  • 大数据探索:[归档]实习生项目-使用MongoDB进行大数据探索-此存储库不支持MongoDB产品

    该项目旨在利用MongoDB进行存储和计算时发现,调查和解决大数据集问题。 这个暑期实习项目还展示了如何使用MongoDB的框架和连接器回答有关存储在MongoDB中的大型数据集的问题。 MongoDB本机聚合框架和hadoop都被用来...

  • Hadoop 2.5.1学习笔记5: mongo-hadoop connector的使用范例

    // conf.set("mongo.output.uri","mongodb://localhost:27017/mongo-hadoop-test.appsout"); job.setInputFormatClass(MongoInputFormat.class); job.setOutputFormatClass(MongoOutputFormat.class); // 5 ...

  • Hadoop-mongodb 使用

    一、概述 使用hadoop-mongodb进行hdfs和mongodb之间的数据转换存储 <...org.mongodb.mongo-hadoop</groupId> <artifactId>mongo-hadoop-core</artifactId> <version...

  • mongo-spark:使用 Apache Spark 和 MongoDB 的简单示例

    $ brew install maven 按照此处的说明克隆并构建 MongoHadoop 连接器源代码: : 如果您检出版本 1.3.1(使用命令 $ git checkout r1.3.1),则构建应在 core/build/libs/mongo-hadoop-core-1.3.1.jar 中创建一个 ...

  • MongoDB_3.8.2驱动jar包及其同版本依赖包bson和mongodb-driver-core

    java和mongodb连接,需要mongodb-driver,您还必须下载其依赖项: bson和 mongodb-driver-core》》3个包: mongodb-driver-3.8.2.jar; bson-3.8.2.jar; mongodb-driver-core-3.8.2.jar

  • mongo-hive:将您的 MongoDB 集合加载到 Hive 中。 支持复杂的JSON结构

    Mongo - Hive 连接器 将 MongoDB 集合加载到 Hive 的超级简单方法。 该代码通过对每个 MongoDB 记录进行深入检查并导出每个字段的数据类型来自动创建 Hive 模式。 支持基本数据类型、嵌套对象、原始数据类型数组和...

Global site tag (gtag.js) - Google Analytics