原文:http://www.ctocio.com/bigdata/7080.html
盘点九大热门开源大数据技术
作者:关志刚星期二, 六月 26, 2012大数据无评论
随着全球企业和个人数据的爆炸式增长,数据本身正在取代软件和硬件成为驱动信息技术行业和全球经济的下一个大“油田”。
与PC、web等断层式信息技术革命相比,大数据的最大的不同是,这是一场由“开源软件”驱动的革命。从IBM、Oracle等巨头到雨后春笋般的大数据创业公司,开源软件与大数据的结合迸发出惊人的产业颠覆性力量,甚至VMware这样的过去完全依赖专有软件的厂商都开始拥抱开源大数据工具。
下面,我们就列举九大最热门的大数据开源技术供大家参考。
一、Hadoop
Apache Hadoop 是一个能够对大量数据进行分布式处理的开源软件框架。由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入,Hadoop的开发者Doug Cutting最初开发Hadoop是为了满足开源web搜索引擎Nutch的集群处理需求,Cutting实现了MapReduce功能和分布式文件系统(HDFS),并整合成为Hadoop。Hadoop的命名灵感来自Cutting儿子的玩具大象。通过MapReduce,Hadoop将大数据分解成小块分配给各个通用服务器节点进行分布处理。Hadoop是目前最流行的大数据(包括非结构化、半结构化和结构化数据)存储和处理技术。Hadoop的开源授权方式是Apache License2.0。
二、R
R是开源编程语言和软件环境,被设计用来进行数据挖掘/分析和可视化。R是S语言的一种实现。而S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。但S-PLUS是一个商业软件,相比之下开源的R语言更受欢迎,被人们誉为“统计界的Red Hat”。
在KDNuggets2012年做的“过去与十二个月你在实际项目中使用的数据挖掘/分析工具”的调查中,R以30.7%的得票率荣登榜首,超过微软Excel(29.8%)和Rapidminer(2010和2011年排名第一)。值得注意的是,今年排名前五名的数据挖掘工具中有四个是开源软件。此外R还在击败SQL和Java,在最受欢迎的数据挖掘应用编程语言排行榜中排名第一。
三、Cascading
作为Hadoop的开源软件抽象层,Cascading允许用户使用任何基于JVM的语言在Hadoop集群上创建并执行数据处理工作流。Cascading能隐藏MapReduce任务底层的复杂性。Chris Wensel设计Cascading的目的是成为MapReduce的一个备用API。Cascading经常被用于广告定向统计、日志文件分析、生物信息学分析、机器学习、预测分析、web内容文本挖掘以及ETL应用。Cascading的商业支持由Concurrent公司提供,该公司由Cascading的设计者Wensel创建。使用Cascading的知名网站包括Twitter和Etsy。Cascading在GNU下开源。
四、Scribe
Scribe是Facebook开发的一种服务器软件,2008年发布。Scribe能实时聚合来自大量服务器的日志文件。Facebook设计Scribe的目的是应对自身的扩展性挑战,目前Facebook使用Scribe来处理每天数以百亿计的消息。Scribe在Apache License2.0下开源。
五、ElasticSearch
ElasticSearch基于ApacheLucene,开发者是Shay Banon。ElasticSearch是一个分布式的RESTful开源搜索服务器,同时也是一个可扩展的解决方案,无需特别配置就可支持支持接近实时的搜索和多租户。很多公司都采用了ElasticSearch,包括StumbleUpon和火狐Mozilla。ElasticSearch在Apache License2.0授权方式下开源。
六、Apache HBase
HBase是运行于HDFS之上的,可扩展的,面向列的,分布式非关系型数据库。HBase由Java语言写成,支持大表(Big Table)的结构化数据存储。HBase的优点是能进行容错存储,并能快速访问海量Sparse数据。HBase是过去几年中涌现的NoSQL数据库的代表之一。2010年Facebook采用HBase搭建消息平台,HBase在Apache License2.0下开源。
七、Apache Cassandra
Apache Cassandra是Facebook开发的开源的分布式数据库管理系统,用来实现用户收件箱内搜索功能,Cassandra同时也是一个NoSQL数据库。2010年,Facebook放弃了Cassandra转而采用HBase。但是Cassandra依然被一些公司采用,例如Netflix使用Cassandra作为视频服务的后台数据库。Cassandra在Apache License2.0下开源。
八、MongoDB
MongoDB由DoubleClick创始人开发,是一个流行的开源NoSQL数据库。MongoDB通过动态模式BSON在类JSON文档中存储结构化数据。MongoDB被很多大企业采用,包括MTV Networks、Craigslist、迪斯尼互动媒体集团、纽约时报和Etsy。MongoDB在GNU下开源,由10gen公司提供商业版授权。
九、Apache CouchDB
Apache CouchDB也是一个开源NoSQL数据库。使用JSON存储数据,用JavaScript作为查询语言,API使用MapReduce和HTTP。CouchDB由前IBM Lotus Notes开发者Damien Katz开发,作为大规模对象数据库的存储系统。注明媒体集团BBC就使用CouchDB作为动态内容平台,CouchDB在Apache License2.0下开源。
除非注明,本站文章均为原创或编译,转载请务必注明出处并保留原文链接: 文章来自IT经理网
相关文章:
被冷落的大数据热点:图谱分析
2013年值得关注的十家大数据公司
大数据应用开发的12个辅助开发工具
大数据提速:Impala能否取代Hive
二十大数据可视化工具点评
Infochimps推出实时大数据开发平台
笔记本电脑也能分析大数据
大数据预测分析的四个关键因素
分享到:
相关推荐
6. 算法:算法是解决问题的具体步骤,包括排序、搜索、图论、动态规划等。在大数据领域,高效的算法是关键,例如在MapReduce中设计适合分布式环境的算法以提高处理效率。 这个资源包可能包含了关于这些主题的详细...
Mobike团队介绍了在大数据平台建设过程中的关键职责,包括提供一站式大数据服务平台、大数据存储和计算平台、实时搜索服务平台,以及标准化数据计算逻辑和管理。团队由数据团队和研发工程师构成,他们在日常运营中...
该平台能够根据用户的需求,通过自然语言处理技术,对软件项目知识图谱进行搜索和查询,提供精确的答案和解释。 3. 应用实践 软件项目知识图谱构造及问答方法已经成功地部署在了Apache开源社区和国内一些知名企业的...
在如今高度互联的商业环境中,企业面临着来自互联网的各种安全威胁,如恶意软件、黑客攻击和网络诈骗等。大数据技术可以帮助企业收集和分析安全日志,通过算法识别潜在的安全漏洞和异常行为,实现有效的风险预防和...
从信息获取、存贮、搜索、 分享、挖掘到展现,大数据呈现了前所未有的复杂性:首先大数据的规模很大,一般都是 PB 级以上;第二大数据具有多样性,不仅有结构化数据,还有大量的非结构化信息;第三 大数据的价值...
【大数据软件行业企业市场突围战略】在21世纪的信息化时代,大数据软件行业已经成为全球科技发展的关键领域。2021年至2026年的五年间,企业面临着激烈的市场竞争,如何在这一领域实现市场突围成为了企业的核心议题。...
总之,Emeditor是一款针对大数据场景优化的文本编辑器,通过其强大的功能和灵活的定制性,能够帮助用户更有效地管理和编辑大数据文件,提高数据处理效率。无论是在竞赛还是日常工作中,都是处理大量数据的得力助手。
通过对用户搜索行为、消费习惯等数据的分析,手机软件可以更加精准地进行个性化推荐,更好地满足用户的特定需求。此外,大数据分析还可以帮助企业发现潜在的市场机会,为产品迭代和新功能开发提供依据,从而推动...
1、资源内容:基于spark的外卖大数据平台分析系统+源代码+文档说明 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能ok的情况下才...
软件成为了驱动大数据的核心力量,如拓尔思(TRS)的大数据产品布局,包括机器数据挖掘引擎、舆情云服务、大数据管理系统等,都体现了软件在大数据处理中的关键作用。 拓尔思的大数据管理系统V7.0,具备分布式并行...
例如,对于一个电商网站,其主题可以是用户行为分析,通过分析用户在网站上的浏览、搜索、购买等行为,了解用户的兴趣和需求,从而优化产品和服务。 在确定主题时,需要考虑以下几个方面: * 主题的选择:选择合适...
提供全球顶尖的大数据软件产品 300+ 技术服务人员 端到端的大数据平台 数据集成、数据挖掘与预测性分析、高级分析 企业级大数据仓库、企业绩效管理、商务智能 大数据SaaS应用和DaaS服务 基于云平台的软件即服务...
大数据(Big Data)指的是那些规模超出了传统数据处理软件工具处理能力范围的数据集。这些数据集不仅庞大,而且增长速度极快,通常包含多种类型的数据(即结构化数据和非结构化数据)。面对这样庞大的数据量,传统的...
随着云计算、硬件性能的提升以及软件技术的进步,大数据的处理和分析能力得到了显著增强。 1.1 大数据的概念 大数据的形成有三个标志性事件,标志着数据从“小”到“大”的转变。这个转变不仅改变了我们的信息处理...
大数据是指无法用传统数据库软件工具捕获、管理和处理的数据集合。其特点包括高容量、高速度和多样性。在大数据时代,我们需要新的技术手段来处理这些数据,如分布式计算、云计算和存储技术等。 二、大数据处理框架...
NLPIR大数据搜索与挖掘共享开发平台是一款专为IT专业人士设计的高级工具,它提供了强大的功能,特别是针对非结构化和结构化数据的处理。这个平台的核心在于其多字段关联搜索技术,允许用户以灵活的方式查找和分析...
大数据是指在传统数据处理应用软件无法进行有效管理和分析的海量、高增长速度和多样性的信息资产。它涉及各种类型的数据,如结构化数据(如数据库中的表格)、半结构化数据(如XML文档)和非结构化数据(如文本、...