资讯月刊下载
[互联网] 【招募】大数据时代,Hadoop竟是最好的框架?
Hadoop的Logo是一头大象,其名字并不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。 提到大数据,很多同学会想到Hadoop技术。大家都知道,Hadoop是Apache的一个开源项目,它是一 ...
[数据库] HBase 0.98发布,安全和性能提升
Apache软件基金会今天发布了HBase 0.98版本。 HBase(Hadoop Database)是一个分布式的、面向列的开源数据库,是Google Bigtable的开源实现,是Apache Hadoop项目的子项目。不同于一般的关系数据库,HBase适合于非结构化数据存储,此外,HBase采用基于列的而不是基于行的模式。 新版本中包含了一些新的安全特性:cell可见性标签、cell ...
[开源软件] Hadoop v2 时代正式到来
Apache基金会近日正式发布了Hadoop 2.2版本,该版本是Hadoop 2.x分支中的首个稳定版本(2.0.x为alpha版本,2.1.x为beta版本),标志着Hadoop 2时代的正式到来。 Apache建议用户升级至最新版本,因为这个版本更加稳定,并保持与之前版本API和相关协议条款的兼容。与Hadoop 1.x相比,Hadoop 2的主要亮点如下: 新的Hadoop MapR ...
[数据库] MongoDB MapReduce 性能提升20倍的优化宝典
自从MongoDB被越来越多的大型关键项目采用后,数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析(这都利用到了Hadoop),因为这些方法往往需要大规模的数据传输,而这些成本相当昂贵。 MongoDB提供了2种方式来对数据进行分析:Map Reduce(以下简称MR)和聚合框架(Aggregation Framework)。MR非常灵活且易于使用,它可以很好地与分片( ...
[互联网] 国内首套免费的大数据技术(Hadoop)视频教程上线
Hadoop作为Nutch的重要组成部分,在《Nutch相关框架视频教程》中具有举足轻重的地位。 目前Hadoop部分已经上线的内容为第9-16共8讲,主要内容有: cygwin下使用hadoop运行nutch、Hadoop单机本地模式 Ubuntu上的Hadoop单机伪分布式模式 Windows上的HADOOP单机伪分布式模式 Ubuntu上的Hadoop多机完全分布式模式 Hadoop分散 ...
[行业应用] 为解决扩展性瓶颈雅虎计划重构Hadoop-MapReduce
最近雅虎开发者博客发了一篇介绍Hadoop重构计划的文章。因为他们发现当集群的规模达到4000台机器的时候,Hadoop遭遇到扩展性的瓶颈,目前他们正准备开始对Hadoop进行重构。 Mapreduce面临的瓶颈 从集群大小和工作量中观察到的趋势是,MapReduce的JobTracker需要彻底改革,以解决其可扩展性,内存消耗,线程模型,可靠性和性能的几个缺陷。Mapreduce在过去5年 ...
[数据库] hadoop hive发布0.40版本,将sql语句转为MapReduce ...
hive是facebook发布的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 优点:学习成本低,可以通过类SQL语句快速实现简单的 MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析 并且有正在逐步完善的jdbc,odbc接口. 下载: http://had ...
[编程语言] Myspace发布基于windows平台的mapreduce框架
MySpace Qizmt - MySpace's Mapreduce FrameworkMySpace Qizmt [kiz-mit] 是一个基于windows操作系统的大规模集群的mapreduce计算框架。特性内置的IDE/调试器 可以在集群上开发调试程序可以在任何节点上执行命令Delta-only exchange option for Mapreduce jobs.可配置的数据冗余和故障转 ...
[数据库] Google能够在6个小时排序1 PB数据
google日前宣布,他们能够在6小时2分钟操作4000台电脑排序1 PB的数据,1 PB = 1,024 TB ! 根据google的博客,从这个数据量的角度来看,1 PB相当于2008年5月份美国国会图书馆存档web数据的12倍,都是通过google MapReduce实例来处理巨大的数据,数据额在2008年一月差不多是每天 20 PB。强大的MapReduc 技术可能成为一个编程模型 和 一个 ...
[编程语言] Cascading:一个简单的Hadoop MapReduce应用
Cascading是一个架构在Hadoop上的API,用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用,而不用考虑背后的MapReduce。 Cascading目前依赖于Hadoop提供存储和执行架构,但是Cascading API为开发者隔离了Hadoop的技术细节,提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。 Cascading ...
[编程语言] Lucene 2.3 发布,Hadoop成为Apache顶级项目
Apache Lucene可以说是Java社区全文检索引擎的事实标准,无人不晓,Lucene社区是相当活跃的,几乎每年都有两个版本发布,21号Lucene正式发布2.3版本,官方网站虽然还没有提供下载,但镜像网站已有下载。 Lucene下载地址:http://www.eng.lsu.edu/mirrors/apache/lucene/java/ Hadoop原本由Lucene的子项目Nutch ...