这是个信息“泛滥”的时代,大数据量司空见惯,企业处理大数据的需求也越来越大。本文梳理一下“大数据”的解决方案。
首先,关系型数据库和桌面分析或者虚拟化包不能处理大数据,相反,运行在数千台服务器上的大量并行软件需要做这个工作。
许多机构转向开源工具,比如Apache的 Hadoop来处理大数据。比如Twitter发送登陆信息到Hadoop,并直接写入HDFS,Hadoop文件系统。
Hadoop支持数据密集的应用部署在数千节点和数个PB, David Hill, Mesabi Group 表示。
但是,大数据在针对不同类型的应用时,确不能一概而论。比如Hadoop并不一定适合所有的案例,Hill警告说。
大数据的捕捉、存储、分析,依靠特殊的应用的特性,Hill强调。举例scale-out网络连接的存储EMC Isilon或IBM的SONAS,可能对于使用非结构化的数据比如图片、视频,会更好。
大数据处理的类型
大数据的处理,可以归为3个基本类型,Revolution Analytics的执行副总Mike Minelli表示,信息管理、商业智能,以及智能分析。
信息管理捕捉和存储信息,BI分析数据,看过去发生的情况,智能分析则是对于数据的预测。Minelli说。
Revolution analytics提供开源R语言和 Revolution R Enterprise,提供TB量级数据的高级分析。Revolution Analytics正在开发Hadoop连接器和R语言在Google的Map/Reduce框架上的能力。
处理大数据的工具
提供了处理大数据分析能力的专有软件包括 AsterData;IBM的专有软件Netezza ; Datameer, 建立在Apache的Hadoop上的专有软件,以及Paraccel。
IBM的Netezza,在它的InfoSphere产品中。Oracle 的Exadata,,以及EMC的Greenplum也是处理大数据量的专有工具。
EMC引入了Greenplum数据库的免费社区版本,该社区版本只是软件。Greenplum社区报表包括3个协作模块Greenplum DB, MADlib, 和Alpine Miner。
处理大数据量的开源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。
Jaspersoft提供的BI工具,提供了报告、分析、ETLETL (解压、转换、加载) ,针对大量的并行分析数据库,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地报告,通过Hadoop和各种类型的NoSQL数据库包括MongoDB, Riak, CouchDB and Infinispan的开源连接。
开源工具VS专有工具
开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。Revolution Analytics的Minelli表示。
数据量在持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。Twitter选择Hadoop,其中重要的原因是专有工具的费用太高。
更长远的来看,开源工具使企业创建新的分析技术,更好的处理非结构化的语言,比如图片等。而不能寄托于传统厂商发展新的分析技术。开源工具给了企业创新的机会。
另外一个领域就是开源与专有工具的混合使用。
短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。
相关推荐
【充分利用大数据开源投资】的主题围绕大数据的解决方案展开,主要介绍了一家名为Think Big Analytics的专业大数据服务公司,该公司隶属于Teradata天睿公司,专注于帮助企业解锁大数据的价值。 Think Big Analytics...
【大数据的开源工具】在IT领域中,大数据的处理和分析越来越依赖于开源工具,这些工具不仅降低了技术门槛,还提供了灵活的解决方案。Pekka Barck,作为Teradata天睿国际架构咨询总监,深入探讨了开源产品在大数据...
《Flink:下一代大数据开源处理引擎》 Apache Flink 是一个强大的实时流处理框架,它在大数据处理领域扮演着至关重要的角色,被誉为“下一代大数据开源处理引擎”。Flink 的核心特性在于其对大数据处理的三个关键...
【大数据开源框架集锦】 大数据处理领域中,开源框架扮演着至关重要的角色,它们提供了高效、灵活且可扩展的数据处理方案。以下是一些关键的开源框架及其应用: 1. **Hadoop**:作为大数据处理的基础,Hadoop由...
6. **学习资源**:初学者可以通过在线课程、开源社区(如GitHub)、技术博客和官方文档来学习大数据技术。思维导图可以作为学习路径的指导,帮助理解和记忆关键概念。 7. **实际案例**:理解实际应用能深化理论知识...
Spoop是一款开源的数据迁移工具,专为处理大规模数据集而设计。它允许用户在关系型数据库管理系统(RDBMS)与Hadoop分布式文件系统(HDFS)之间进行高效的数据导入导出。在大数据领域,Spoop扮演着连接传统数据库与...
本文详细探讨了开源大数据ETL(Extract-Transform-Load)工具中模块化组件构建的技术方法,并以Kettle这个开源ETL软件作为案例,分析了其模块化组件构建的实践应用。Kettle是Pentaho数据集成(PDI)系统的一个重要...
本研究主要探讨的是如何利用模块化组件构建开源大数据ETL工具,以提升数据处理的效率和可扩展性。 一、模块化设计的优势 模块化组件构建技术的核心思想是将复杂系统拆分为多个独立的、可重用的模块,每个模块专注于...
本文档《基于开源工具集的大数据网络安全态势感知及预警架构》便是一篇聚焦于此的学术论文,作者通过分析传统网络安全防护技术的不足,探讨利用大数据和开源工具集来构建一个高性能、可扩展的网络威胁处理平台。...
"大数据各类工具.zip"这个压缩包很可能包含了多个用于大数据处理的开源项目或者库的源代码。其中,"bigdata-tools-master"可能是这些工具的一个主目录或集合。 首先,我们来探讨一下大数据的基本概念。大数据是指...
大数据是21世纪信息技术发展的重要领域,它涵盖了海量数据的收集、存储、处理和分析,...无论是在数据仓库、实时分析、流处理还是机器学习等方面,都有相应的开源工具供开发者选择和定制,推动了大数据领域的快速发展。
总的来说,这个开源的大数据可视化HTML模板为数据分析人员和开发者提供了一个便捷的工具,帮助他们快速搭建美观且功能强大的数据展示平台,无需从零开始编写复杂的代码。只需根据自己的数据集进行适配和配置,就能...
项目可能包含了与Echarts、Tableau等工具结合的示例,帮助展示和理解数据。 7. **法律法规和道德规范**:在进行爬虫项目时,需要遵守互联网使用规则,尊重网站的robots.txt文件,避免过度抓取或侵犯隐私。项目可能...
这些文件共同构成了一个完整的开源大数据ETL工具的开发环境,包括项目管理、开发指南、用户手册以及构建配置。对于想要参与开发、学习或使用该ETL工具的人来说,这些都是不可或缺的资源。通过阅读和理解这些文件,...
在大数据领域,各种工具和技术是实现高效数据处理、分析和可视化的关键。以下是一些常见的大数据工具,它们在不同环节中发挥着重要作用: 1. **Python**:Python 是一种广泛使用的编程语言,尤其在数据科学中,它有...
MySQL大数据备份工具是数据库管理员在处理海量数据时不可或缺的实用程序,它们能够高效、安全地对超过2GB的数据进行备份,确保数据的完整性和可恢复性。MySQL作为世界上最流行的开源关系型数据库管理系统之一,其...
【描述】:宜信公司在2017年推出了一系列的大数据开源工具,其中包括DBus、Wormhole、Moonbox和Davinci等,这些工具在技术社区内引起了广泛的关注和赞誉。此资料主要探讨了这些工具在宜信内部的应用,以及它们与宜信...
在这个压缩包文件中,我们可能找到了与大数据工具相关的代码以及Kafka的使用示例,具体可能包括了数据生产、消费、存储和处理的代码片段。接下来,我们将深入探讨Kafka的关键特性、应用场景以及如何与其他大数据工具...