资讯月刊下载
[开源软件] 国内首套免费的《Nutch相关框架视频教程》上线
Nutch是一个Java开源项目,拥有近十年的历史,从一开始的搜索引擎演变为如今的网络爬虫。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大数据和云计算的代名词。 本人拥有多年Nutch相关框架研发经验,顺应云计算大数据的浪潮,推出了国内首套免费的《Nutch相关框架视频教程》。 ...
[企业架构] Spring For Apache Hadoop 1.0 正式发布
SpringSource社区今天发布了Spring For Apache Hadoop 1.0正式版。该项目将Spring的一些特性引入到了基于Apache Hadoop技术的应用开发中。 Spring for Apache Hadoop为基于Hadoop的项目提供了一个一致的编程、配置模型。无论是编写独立的MapReduce应用,从多个数据存储中交互操作数据,还是调度复杂的HDFS/Pig/H ...
[开源软件] RedHat开源其Hadoop存储系统
作为大数据+混合云业务战略的一部分,Red Hat没有选择推出自己的hadoop商业版本或者收购一家Hadoop发行厂商,而是推出了首个Hadoop HDFS文件存储系统的开源替代产品。 Red Hat本周三宣布开源其Red Hat Storage Hadoop插件,作为HDFS的替代产品。RedHat Storage hadoop插件基于Gluster文件系统——Red Hat于2011年以1. ...
[开源软件] Facebook开源Corona,Hadoop作业调度管理系统
Facebook近日开源了Corona,这是Facebook用来调度和管理大规模Hadoop作业的系统。 Corona是Map-Reduce的改进版本,可以更好地利用集群资源,更适合Facebook的“多租户(Multi-Tenant)”环境。 在Facebook,Map-Reduce有一个单一的作业跟踪器(JobTracker),用来管理集群资源和跟踪每个作业的状态。而使用Corona,集群资 ...
[开源软件] VMware发布开源项目Serengeti,支持云中部署Apache H ...
全球虚拟化和云基础架构领导厂商VMware公司今天公布了最新开源项目——Serengeti,支持企业能够在虚拟和云环境中快速部署、管理和扩展Apache Hadoop。此外,VMware与Apache Hadoop社区共同合作研发扩展功能,让主要组件可以“感知虚拟化”以支持灵活扩展,并进一步提高Hadoop在虚拟化环境中的性能。 VMware公司云应用服务副总裁陈志璋表示: 引用通过支持企业充 ...
[开源软件] 淘宝分布式框架 Fourinone 2.0 正式版发布
淘宝Fourinone2.0提供了一个4合1分布式框架和简单易用的编程api,实现对多台计算机cpu、内存、硬盘的统一利用,从而获取到强大计算能力去解决复杂问题: Fourinone框架提供了一系列并行计算模式(农民工/包工头/职介绍/手工仓库)用于利用多机多核cpu的计算能力; 提供完整的分布式缓存和小型缓存用于利用多机内存能力; 提供像操作本地文件一样操作远程文件(访问、并行读写、拆分、排他 ...
[开源软件] Apache Hadoop 2.0 Alpha 版发布
Apache Hadoop社区近日发布了最新的Apache Hadoop 2.0 Alpha版本,这标志着Apache Hadoop进入了一个新的分支。 Hadoop是Apache的顶级开源项目,由前雅虎开发者Doug Cutting(也是Nutch和Lucene的创始人)开发的分布式计算平台,是一个能够对大量数据进行分布式处理的框架。用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利 ...
[数据库] MongoDB Hadoop Connector 1.0 正式版发布
10gen(MongoDB数据库开发商)今天发布了MongoDB Hadoop Connector 1.0 正式版本。 MongoDB Hadoop Connector的核心功能是允许读取MongoDB数据到Hadoop MapReduce工作中,以及将MapReduce工作的结果写回到MongoDB。用户可以针对每个实例来选择结合使用或单独使用MongoDB的读、写操作。该连接器的目标是根据用户 ...
[行业应用] Hadoop 1.0正式发布
历经六年的"妊娠发育"后,Hadoop 1.0终于正式发布了! Hadoop是一个顶级Apache开源项目,雅虎是其最主要的贡献者。它是由前雅虎开发者Doug Cutting(也是Nutch和Lucene的创始人)开发的分布式计算平台,受Google的MapReduce和Google File System启发,主要被应用于分析大容量数据集。Hadoop被eBay、Faceb ...
[开源软件] 总结2011年10个最重要的开源软件
2011年是开源领域标志性的一年。正因如此,挑选 10 个最重要的开源项目反倒相当困难。要判断一个开源项目的重要性,其标准应该是影响深远,并且日益普及,或者是新领域中的技术佼佼者。 1. Hadoop 首先出场的是Hadoop,毫无疑问这个来自 Apache 基金会的分布式计算平台当得起“重要”二字,在过去的一年中这个由 Yahoo 发起的项目正在为包括 Amazon、IBM、Twitte ...
[互联网] 微软展开“大数据”蓝图,推进Hadoop至Azure和Window ...
微软已经展开了他们的“大数据”蓝图,其中担当主要角色的就是Apache Hadoop。 Hadoop是一个分布式系统基础架构,由Apache基金会开发。它是一个能够对大量数据进行分布式处理的软件框架。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。在12日西雅图召开的微软PASS(Professional Association for SQL Serv ...
[开源软件] Apache基金会亚洲巡演,10月23日,上海大学,品开源、 ...
各位,Apache软件基金会在此邀请大家于2011年10月23日参加在中国上海举行的Apache 2011亚洲巡演,会址在上海大学延长路校区。经过几个月的紧张筹备,我们成功邀请到了许多技术大牛来和大家做交流。会议Keynotes包括: Greg Stein - Apache Board of Directors, 演讲题目是Contributing to Apache Aaron Farr - F ...
[行业应用] 为解决扩展性瓶颈雅虎计划重构Hadoop-MapReduce
最近雅虎开发者博客发了一篇介绍Hadoop重构计划的文章。因为他们发现当集群的规模达到4000台机器的时候,Hadoop遭遇到扩展性的瓶颈,目前他们正准备开始对Hadoop进行重构。 Mapreduce面临的瓶颈 从集群大小和工作量中观察到的趋势是,MapReduce的JobTracker需要彻底改革,以解决其可扩展性,内存消耗,线程模型,可靠性和性能的几个缺陷。Mapreduce在过去5年 ...
[数据库] Facebook:HBase每月存储1350亿条信息
也许你已经在一些地方看到这个消息,Facebook 已经开发一款新的社会化收件箱,集成了电子邮件、即时通讯、短信、文本信息、Facebook站内信息。最重要的是,他们需要每个月存储 1350 亿条信息。他们在哪里存储这些信息?Facebook的Kannan Muthukkaruppan 在《信息背后的技术》一文中给出一个令人惊奇的答案:HBase。HBase 击败了MySQL、Cassandra ...
[编程语言] Jetty发布了7.2.0
Jetty近日发布了7.2.0版本,相关消息http://dev.eclipse.org/mhonarc/lists/jetty-dev/msg00497.html 主要修复的bug和改进可以参考发布说明,似乎主要修复了一些NPE,bug及提供了一些小特性,看上去并无大改动:) http://jira.codehaus.org/secure/ReleaseNote.jspa?projectId= ...