`
weitao1026
  • 浏览: 1053362 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

十大开源的大数据技术

 
阅读更多
大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。

1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

2.Spark——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。

4.Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。随着最新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。

5.Kafka——Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。

6.Phoenix—是HBase的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。

7.Zeppelin——Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

8.Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满足你所有的机器学习。

9.Apache Beam——在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。

10.Stanford CoreNLP——自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。
分享到:
评论

相关推荐

    大数据十大开源的大数据技术.rar

    下面,我们将详细探讨这十大受欢迎的开源大数据技术。 1. Hadoop:Apache Hadoop 是大数据处理的基础框架,它以分布式文件系统HDFS为核心,配合MapReduce进行大规模数据并行计算。Hadoop的设计理念是容错性好、扩展...

    大数据发展趋势预测

    随着大数据技术的不断成熟和完善,其应用范围正在从早期的概念验证阶段进入到创造实际价值的阶段。这一转变意味着大数据不再仅仅是理论上的讨论,而是实实在在地为各个行业带来了经济效益和社会效益。例如,大数据...

    大数据时代电子政务构建分析.docx

    - **开源技术的持续创新**:开源项目将继续成为大数据技术创新的重要驱动力。企业和研究机构将持续加大对Hadoop、Spark等开源项目的贡献和支持。 - **大数据平台的性能提升**:随着分布式内存计算技术的进步,大数据...

    大数据模型实操分析.zip

    Spark大数据技术还在如火如荼地发展,Spark中国峰会的召开,各地meetup的火爆举行,开源软件Spark也因此水涨船高,很多公司已经将Spark大范围落地并且应用。Spark使用者的需求已经从最初的部署安装、运行实例,到...

    大数据的应用.doc

    本文主要探讨了三个关键方面:大数据与开源技术、内存技术和机器学习。 首先,大数据与开源技术,尤其是Apache Hadoop和Spark,是推动大数据处理的核心力量。Hadoop作为一个分布式文件系统,允许大规模数据的存储和...

    2023年数字湖南十大应用场景建设计划重点项目.docx

    2. 湖南城陵矶集装箱码头智慧港口建设:该项目将建设智能港口,采用物联网和大数据技术提高港口运营效率和安全性。 3. 汨罗市智慧交通系统建设项目:该项目旨在建设智慧交通系统,采用物联网和大数据技术提高交通...

    大数据的10大发展趋势.ppt

    在2017年,随着大数据市场的继续增长,企业需要了解如何应用大数据技术来提高业务效率和竞争力。以下是大数据的10大发展趋势: 1. 开放源码:大数据处理过程中,内存技术将扮演着越来越重要的角色。它可以将数据...

    中国大数据产业市场分析-未来十大发展趋势预测-5G将成为物联网增长爆发点.docx

    中国大数据产业市场正在经历快速的发展和变革,未来十大发展趋势预示着行业的潜力和方向。首先,公有云市场成为增长最快的部分,特别是在大数据与AI、5G、IoT等技术的融合中,公有云扮演着重要角色,提供强大的存储...

    《大数据导论》复习资料 (2).docx

    课程内容主要分为十大章节,从基础到实践,全方位解析大数据领域。 第1章介绍大数据概述,阐述了大数据的基本概念,包括大数据的定义、特征,以及大数据涉及的数据类型。大数据的特征通常概括为5V:Volume(大量)...

    藏经阁-Apache Flink 十大技术难点实战-114.pdf

    Apache Flink是一个强大的开源大数据计算引擎,具备处理流处理、批处理和机器学习的能力,是Apache软件基金会的核心项目之一。 在Flink 1.10.0版本中,进行了大规模的更新,包括Blink引擎的完整合并,这标志着Flink...

    Apache Flink 十大技术难点实战1

    Apache Flink 是一个强大的开源大数据计算引擎,支持流处理、批处理和机器学习等多种计算模式。在Apache Flink 1.10.0版本中,它经历了大规模的升级,不仅完成了与Blink引擎的合并,还在性能、稳定性和功能方面取得...

    2021.12-2022十大科技趋势-达摩院-31页.pdf

    数字化、网络化、智能化将使数字世界与物理世界的融合更加紧密,云为核心的数字技术体系,将AI、大数据、大规模算力等技术与资源集成在一起。 趋势4:绿色低碳 数字科技是环境保护的一种重要力量,通过绿色低碳的...

    Apache Flink 十大技术难点实战.pdf

    阿里巴巴的实时计算团队是Flink社区中活跃的贡献者,他们将Blink引擎的代码开源并贡献给了Flink社区。Flink 1.10版本标志着Blink与Flink的整合完成,这个版本极大地提升了生产可用性、功能和性能,解决了1270个问题...

    十大最靠谱it培训机构.pdf

    9. Java:是一种面向对象的编程语言,广泛应用于企业级应用、Android应用开发、大数据技术等众多领域。 10. VR(虚拟现实):通过计算机技术生成的一种能够与人交互的三维环境,VR技术提供了沉浸式的体验,广泛应用...

    淘宝客帝国cms7.5源码 电商品牌特价大全网 带手机端.7z

    百强网一家以品牌为核心的购物网站,每月更新十大品牌排行榜(大数据技术排名),实时聚合全网品牌特价信息,帮您花更少的钱,买更好的品牌货!还有百强论坛交流社区,选购分享两不误,让您秒变购物达人。专业的品牌...

    全球数字经济十大发展趋势.docx

    技术开源和去中心化为全球范围内的创新合作提供了便利,不同地区和领域的创新主体可以更加便捷地分享知识、技术和资源。互联网平台如众筹和众包,为创新项目的融资和研发提供了新的途径,推动了创新活动的普及和加速...

    【重磅】2020年通信行业白皮书集合.zip

    2020十大技术趋势白皮书_阿里达摩院 2020年5G通信发展白皮书 2020智慧城市白皮书 2021年5G+工业互联网发展评估白皮书 2021年5G发展展望白皮书 2G3G减频退网白皮书 5G产业发展白皮书 5G室内融合定位白皮书 5G智慧医疗...

    2022十大科技趋势.pdf

    云作为数字化操作系统,降低了技术资源使用的门槛,使得企业和个人可以更便捷地调用AI、大数据和大规模计算能力,推动技术创新。 3. **AI工程化与AI for Science**:AI在科学研究中的应用正在加速,AI工程化使得AI...

    《程序员》2012年第12期.

    12. 开发工具和新技术:如轻量分布式服务框架Skynet技术、开源嵌入式实时操作系统RT-Thread的发展历程等,这为程序员和开发者提供了技术工具和平台的选择,以及对新兴技术趋势的了解。 以上知识点从不同的角度展现...

Global site tag (gtag.js) - Google Analytics