- 浏览: 1053362 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1441)
- 软件思想&演讲 (9)
- 行业常识 (250)
- 时时疑问 (5)
- java/guava/python/php/ruby/R/scala/groovy (213)
- struct/spring/springmvc (37)
- mybatis/hibernate/JPA (10)
- mysql/oracle/sqlserver/db2/mongdb/redis/neo4j/GreenPlum/Teradata/hsqldb/Derby/sakila (268)
- js/jquery/jqueryUi/jqueryEaseyUI/extjs/angulrJs/react/es6/grunt/zepto/raphael (81)
- ZMQ/RabbitMQ/ActiveMQ/JMS/kafka (17)
- lucene/solr/nuth/elasticsearch/MG4J (167)
- html/css/ionic/nodejs/bootstrap (19)
- Linux/shell/centos (56)
- cvs/svn/git/sourceTree/gradle/ant/maven/mantis/docker/Kubernetes (26)
- sonatype nexus (1)
- tomcat/jetty/netty/jboss (9)
- 工具 (17)
- ETL/SPASS/MATLAB/RapidMiner/weka/kettle/DataX/Kylin (11)
- hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie (190)
- ios/swift/android (9)
- 机器学习&算法&大数据 (18)
- Mesos是Apache下的开源分布式资源管理框架 (1)
- echarts/d3/highCharts/tableau (1)
- 行业技能图谱 (1)
- 大数据可视化 (2)
- tornado/ansible/twisted (2)
- Nagios/Cacti/Zabbix (0)
- eclipse/intellijIDEA/webstorm (5)
- cvs/svn/git/sourceTree/gradle/jira/bitbucket (4)
- jsp/jsf/flex/ZKoss (0)
- 测试技术 (2)
- splunk/flunm (2)
- 高并发/大数据量 (1)
- freemarker/vector/thymeleaf (1)
- docker/Kubernetes (2)
- dubbo/ESB/dubboX/wso2 (2)
最新评论
大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。
1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。
2.Spark——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。
4.Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。随着最新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。
5.Kafka——Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。
6.Phoenix—是HBase的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。
7.Zeppelin——Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
8.Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满足你所有的机器学习。
9.Apache Beam——在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。
10.Stanford CoreNLP——自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。
1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。
2.Spark——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。
4.Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。随着最新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。
5.Kafka——Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。
6.Phoenix—是HBase的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。
7.Zeppelin——Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
8.Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满足你所有的机器学习。
9.Apache Beam——在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。
10.Stanford CoreNLP——自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。
发表评论
-
CDH与原生态hadoop之间的区别
2017-07-26 12:45 996需要认识的几个问题 ------------------- ... -
Cloudera的CDH和Apache的Hadoop的区别
2017-07-26 12:49 578目前而言,不收费的Hadoop版本主要有三个(均是国外厂商) ... -
大数据、云计算系统高级架构师课程学习路线图
2017-07-24 17:10 600大数据、云计算系统高级架构师课程学习路线图 大数据 ... -
Oozie简介
2017-07-24 12:17 1068在Hadoop中执行的任务有时候需要把多个Map/Reduc ... -
清理ambari安装的hadoop集群
2017-07-24 11:29 929本文针对redhat或者centos 对于测试集群,如果通 ... -
hawk大数据基础知识总结(2)
2017-05-13 15:13 514hawk 英[hɔ:k] 美[hɔk] n. 鹰; 霍克; ... -
hawk大数据基础知识总结(1)
2017-05-13 14:41 797一、大数据概述 1.1大 ... -
ambari是什么
2017-05-11 19:52 650Apache Ambari是一种基于Web的工具,支持Apa ... -
数据仓库中的Inmon与Kimball架构之争
2017-05-11 13:40 699对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至 ... -
Hive的meta 数据支持以下三种存储方式
2017-05-04 13:48 907测试环境下Hive总出问题 ... -
大数据要学习知识
2017-05-02 17:18 49301 技术层面 1.紧贴 ... -
Spark Streaming简介
2017-05-02 16:28 7481.1 概述 Spark Streaming 是Spark ... -
pentaho套件
2017-04-28 15:52 836有人统计过,在整个数据分析过程里,收集、整理数据的工作大致占全 ... -
Impala:新一代开源大数据分析引擎
2017-04-22 10:48 730大数据处理是云计算中非常重要的问题,自Google公司提出M ... -
Weka是什么
2017-04-10 13:17 1073Weka的全名是怀卡托智 ... -
解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎
2017-04-10 12:04 842一、HAWQ基本介绍 HAWQ ... -
Kettle的使用
2017-04-06 12:11 600Kettle是一款国外开源 ... -
clouder manager端口7180没有打开为什么
2017-03-27 10:56 1186修改 clouder-manager.repo新建内容我们需要 ... -
Impala与Hive的比较
2017-03-19 13:09 7901. Impala架构 Impala是Clo ... -
Cloudera Manager、CDH零基础入门、线路指导
2017-03-19 12:53 1269问题导读:1.什么是cloudera CM 、CDH?2.C ...
相关推荐
下面,我们将详细探讨这十大受欢迎的开源大数据技术。 1. Hadoop:Apache Hadoop 是大数据处理的基础框架,它以分布式文件系统HDFS为核心,配合MapReduce进行大规模数据并行计算。Hadoop的设计理念是容错性好、扩展...
随着大数据技术的不断成熟和完善,其应用范围正在从早期的概念验证阶段进入到创造实际价值的阶段。这一转变意味着大数据不再仅仅是理论上的讨论,而是实实在在地为各个行业带来了经济效益和社会效益。例如,大数据...
- **开源技术的持续创新**:开源项目将继续成为大数据技术创新的重要驱动力。企业和研究机构将持续加大对Hadoop、Spark等开源项目的贡献和支持。 - **大数据平台的性能提升**:随着分布式内存计算技术的进步,大数据...
Spark大数据技术还在如火如荼地发展,Spark中国峰会的召开,各地meetup的火爆举行,开源软件Spark也因此水涨船高,很多公司已经将Spark大范围落地并且应用。Spark使用者的需求已经从最初的部署安装、运行实例,到...
本文主要探讨了三个关键方面:大数据与开源技术、内存技术和机器学习。 首先,大数据与开源技术,尤其是Apache Hadoop和Spark,是推动大数据处理的核心力量。Hadoop作为一个分布式文件系统,允许大规模数据的存储和...
2. 湖南城陵矶集装箱码头智慧港口建设:该项目将建设智能港口,采用物联网和大数据技术提高港口运营效率和安全性。 3. 汨罗市智慧交通系统建设项目:该项目旨在建设智慧交通系统,采用物联网和大数据技术提高交通...
在2017年,随着大数据市场的继续增长,企业需要了解如何应用大数据技术来提高业务效率和竞争力。以下是大数据的10大发展趋势: 1. 开放源码:大数据处理过程中,内存技术将扮演着越来越重要的角色。它可以将数据...
中国大数据产业市场正在经历快速的发展和变革,未来十大发展趋势预示着行业的潜力和方向。首先,公有云市场成为增长最快的部分,特别是在大数据与AI、5G、IoT等技术的融合中,公有云扮演着重要角色,提供强大的存储...
课程内容主要分为十大章节,从基础到实践,全方位解析大数据领域。 第1章介绍大数据概述,阐述了大数据的基本概念,包括大数据的定义、特征,以及大数据涉及的数据类型。大数据的特征通常概括为5V:Volume(大量)...
Apache Flink是一个强大的开源大数据计算引擎,具备处理流处理、批处理和机器学习的能力,是Apache软件基金会的核心项目之一。 在Flink 1.10.0版本中,进行了大规模的更新,包括Blink引擎的完整合并,这标志着Flink...
Apache Flink 是一个强大的开源大数据计算引擎,支持流处理、批处理和机器学习等多种计算模式。在Apache Flink 1.10.0版本中,它经历了大规模的升级,不仅完成了与Blink引擎的合并,还在性能、稳定性和功能方面取得...
数字化、网络化、智能化将使数字世界与物理世界的融合更加紧密,云为核心的数字技术体系,将AI、大数据、大规模算力等技术与资源集成在一起。 趋势4:绿色低碳 数字科技是环境保护的一种重要力量,通过绿色低碳的...
阿里巴巴的实时计算团队是Flink社区中活跃的贡献者,他们将Blink引擎的代码开源并贡献给了Flink社区。Flink 1.10版本标志着Blink与Flink的整合完成,这个版本极大地提升了生产可用性、功能和性能,解决了1270个问题...
9. Java:是一种面向对象的编程语言,广泛应用于企业级应用、Android应用开发、大数据技术等众多领域。 10. VR(虚拟现实):通过计算机技术生成的一种能够与人交互的三维环境,VR技术提供了沉浸式的体验,广泛应用...
百强网一家以品牌为核心的购物网站,每月更新十大品牌排行榜(大数据技术排名),实时聚合全网品牌特价信息,帮您花更少的钱,买更好的品牌货!还有百强论坛交流社区,选购分享两不误,让您秒变购物达人。专业的品牌...
技术开源和去中心化为全球范围内的创新合作提供了便利,不同地区和领域的创新主体可以更加便捷地分享知识、技术和资源。互联网平台如众筹和众包,为创新项目的融资和研发提供了新的途径,推动了创新活动的普及和加速...
2020十大技术趋势白皮书_阿里达摩院 2020年5G通信发展白皮书 2020智慧城市白皮书 2021年5G+工业互联网发展评估白皮书 2021年5G发展展望白皮书 2G3G减频退网白皮书 5G产业发展白皮书 5G室内融合定位白皮书 5G智慧医疗...
云作为数字化操作系统,降低了技术资源使用的门槛,使得企业和个人可以更便捷地调用AI、大数据和大规模计算能力,推动技术创新。 3. **AI工程化与AI for Science**:AI在科学研究中的应用正在加速,AI工程化使得AI...
12. 开发工具和新技术:如轻量分布式服务框架Skynet技术、开源嵌入式实时操作系统RT-Thread的发展历程等,这为程序员和开发者提供了技术工具和平台的选择,以及对新兴技术趋势的了解。 以上知识点从不同的角度展现...