资讯月刊下载
[开源软件] Hadoop 2.1.0 beta 版发布,HDFS SnapShot 特性一览
Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚,以防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍,其他的文章在来介绍Snapshot 本身的实现机制。 HDFS Snapshot有以下几个特性: Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间 只有当修改SnapShot时,才会有额外的内存 ...
[数据库] Mongo-Hadoop 1.1发布,利用Hadoop并行处理MongoDB中 ...
Hadoop擅长分析和处理大型数据集,而MongoDB擅长存储应用程序的大型数据集,这两者结合到一起,就诞生了Mongo-Hadoop——MongoDB主要负责存储和查询,Hadoop主要负责批处理。 今天Mongo开发团队发布了Mongo-Hadoop 1.1版本。 项目地址:https://github.com/mongodb/mongo-hadoop Mongo-Hadoop可以很容易地 ...
[数据库] MongoDB MapReduce 性能提升20倍的优化宝典
自从MongoDB被越来越多的大型关键项目采用后,数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析(这都利用到了Hadoop),因为这些方法往往需要大规模的数据传输,而这些成本相当昂贵。 MongoDB提供了2种方式来对数据进行分析:Map Reduce(以下简称MR)和聚合框架(Aggregation Framework)。MR非常灵活且易于使用,它可以很好地与分片( ...
[数据库] Hortonworks正式推出Windows版Hadoop数据平台
Apache Hadoop的主要贡献者Hortonworks近日正式发布了Windows平台版本的Hortonworks数据平台(HDP),这是一个100%开源的由Apache Hadoop驱动的数据平台。 Hadoop大多运行于Linux平台,此次HDP for Windows的发布,为Windows用户带来了与Linux平台一致的体验。 HDP for Windows允许企业组织能够获取、 ...
[互联网] 国内首套免费的大数据技术(Hadoop)视频教程上线
Hadoop作为Nutch的重要组成部分,在《Nutch相关框架视频教程》中具有举足轻重的地位。 目前Hadoop部分已经上线的内容为第9-16共8讲,主要内容有: cygwin下使用hadoop运行nutch、Hadoop单机本地模式 Ubuntu上的Hadoop单机伪分布式模式 Windows上的HADOOP单机伪分布式模式 Ubuntu上的Hadoop多机完全分布式模式 Hadoop分散 ...
[开源软件] RedHat开源其Hadoop存储系统
作为大数据+混合云业务战略的一部分,Red Hat没有选择推出自己的hadoop商业版本或者收购一家Hadoop发行厂商,而是推出了首个Hadoop HDFS文件存储系统的开源替代产品。 Red Hat本周三宣布开源其Red Hat Storage Hadoop插件,作为HDFS的替代产品。RedHat Storage hadoop插件基于Gluster文件系统——Red Hat于2011年以1. ...
[行业应用] 2013云计算热门话题:大数据分析和CloudStack
随着云计算从测试进入到生产环境中,现实世界中围绕着云计算的细节的探讨愈演愈烈。我们找到了新年中云计算呈现的趋势。这些热门话题可能还不是最热的,但是2012年已经技术,兴趣点开始升温,一些云计算问题和主旨我们将要在2013年来面对。 大数据分析 今年已经证实了大数据的能量以及其能为企业带来的具有竞争力的优势。根据Gartner的内容,通过对于Web的研究,看到在2013年大数据的影响是唯一扩大 ...
[数据库] Intel开源GraphBuilder,大数据图形化工具
Intel近日开源了GraphBuilder测试版本的源码。 GraphBuilder由英特尔研究院(Intel Labs)开发,是首个针对大数据的可扩展的开源Java库,可以将大数据集构建成图形——能够反映数据之间关系的网络状结构图,帮助行业和学术界的科学家或数据分析师快速分析大型数据集。 GraphBuilder使用MapReduce并行编程模型进行扩展,其主要组件及与Hadoop MapR ...
[开源软件] Apache Hadoop 2.0 Alpha 版发布
Apache Hadoop社区近日发布了最新的Apache Hadoop 2.0 Alpha版本,这标志着Apache Hadoop进入了一个新的分支。 Hadoop是Apache的顶级开源项目,由前雅虎开发者Doug Cutting(也是Nutch和Lucene的创始人)开发的分布式计算平台,是一个能够对大量数据进行分布式处理的框架。用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利 ...
[数据库] Pentaho开源部分大数据产品,移植Kettle项目到Apache ...
据国外媒体报道,Pentaho开发商近日开源了部分数据集成软件,并将整个Kettle数据集成平台移植到Apache 2.0许可证下,以便从目前蓬勃发展的Hadoop和NoSQL业务中得到更多的份额,从而奠定其在大数据市场的地位。 Pentaho是目前世界上最流行的开源商务智能(Business Intelligence,BI)解决方案。它是一个基于Java平台的BI套件,包括一个Web Serv ...