阅读更多

3顶
1踩

开源软件
引用
原文地址:On the Rise: Six Unsung Apache Big Data Projects
作者:SAM DEAN
译者:吴洁

世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会(ASF)又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。

大多数人都听过的Apache Spark,一个针对Streaming, SQL,机器学习和图形处理的内置模块的大数据处理架构。 IBM和其他公司正在投入数十亿美金开发资金到Spark项目,NASA和SETI Institute正在利用Spark的机器学习能力,合作分析TB数量级的外太空无线信号数据,寻找外星智能生命存在的形式。

然而,其他几个最近被Apache擢升为顶级的大数据项目也值得您额外关注。事实上,他们中的一些所构建和发展的生态系统,很可能将对Spark发起挑战。结合本周举行的“ApacheCon北美峰会”(ApacheCon North America conference)和“Apache大数据峰会”(Apache: Big Data events),本文将归纳那些你应该知道的Apache的大数据项目。

下面是六个正在冉冉兴起的项目:

Kylin
Apache近日宣布其Kylin项目,一个始于eBay的开源大数据项目在eBay已经毕业为顶级项目。Kylin是一个开源的分布式分析引擎,旨在提供在Apache Hadoop之上SQL接口的多维分析引擎(OLAP),可支持超大数据集。它已广泛在eBay和其他一些组织中被采用。

“Apache Kylin的孵化之旅已经证明Apache软件基金会(ASF)开源治理的价值,以及围绕项目建设开源社区和生态系统的强大力量。”Apache Kylin副总裁Luke Han(韩卿)说: “我们的开源社区是世界上最大的本土开发者参与的社区,完全依照The Apache Way的社区运作方式。”

作为一个领先的基于Hadoop的OLAP解决方案,Apache Kylin填补了大数据与人使用之间的空白,他补充说道:“使分析人员,最终用户,开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力,Apache Kylin将商业智能(BI)带回Apache Hadoop以释放出大数据的价值。”

Lens
Apache近日宣布,Apache Lens,一个开源的大数据和分析工具,也已经从Apache孵化器毕业成为一个顶级项目(TLP)。根据公告:“Apache Lens是一个统一的分析平台,以统一视图形式为分析查询提供了优化的执行环境。Apache Lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”

“通过在数据之上提供一个在线的分析处理(OLAP)模型,Lens无缝地集成Hadoop和传统数据仓库,提供统一的外部接口。它同时提供系统中查询历史、统计和查询的生命周期管理。”

“在ASF中孵化Apache Lens是一段神奇的经历” Apache Lens的副总裁Amareshwari Sriramadasu说:“Apache Lens从最终用户角度出发,为大数据分析解决了一个难题,它使得业务用户、分析师、开发者和其他用户,可以轻松的进行复杂的数据分析,而不需要了解底层的数据架构。”

Ignite
ASF还宣布Apache Ingite成为了一个顶级项目,一个通过开源方式建立的内存数据网络。Apache Ignite是一个高性能的整合的分布式的内存数据网络,实现在大规模数组上进行实时的计算和交互。Apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”

Brooklyn
ASF宣布Apache Brooklyn已成为一个TLP(顶级项目)。“这标志着该项目的社区和产品在ASF优异的流程和原则下治理有方。”Brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台,并适用于各种云端软件。

Brooklyn 宣称:“随着现代应用程序正在由更多个部件组成,微服务架构又逐渐兴起,部署以及已部署应用的演化越来越成为一个难题。Apache Brooklyn的蓝图提供了一个清晰简洁的方式,在部署到公共云或私有基础设施之前,来规范应用,及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理,会不断地评估运行应用程序,修改以保持它的运行健康和指标优化,例如成本和响应能力。”

Brooklyn已经在一些知名企业中应用。云服务商Canopy和Virtustream已在Brooklyn上提供产品。IBM也已经大规模的使用Brooklyn,以将大量工作从AWS迁移到IBM Softlayer之上。

Apex
今年4月,Apache软件基金会将Apex项目提升至顶级项目。它被称为“应用在Apache Hadoop生态系统的大规模,高吞吐量,低延时,能容错的,统一的大数据流和批量处理平台。” Apex与Apache Hadoop资源管理平台YARN,一起作用于Hadoop工作集群。

Tajo
最后,Apache Tajo,一个领先的Apache Hadoop之上的开源数据仓库系统,成为另一个你需要了解的大数据项目。Apache宣称Tajo提供了针对Hadoop、第三方数据库以及商用BI工具的快速抓取能力。

显然,尽管Apache Spark吸引了大量的眼球,但它不是唯一需要你关注的来自Apache的大数据工具。今年接下去,Apache也许会将更多引人注目的大数据项目升级为顶级项目,这些项目必将由此获得更好的开发资源和更多的受益。(责编/仲浩)
3
1
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 冉起新秀:Apache六大尚未广为人知的大数据项目

    原文地址:On the Rise: Six Unsung Apache Big Data Projects 作者:SAM DEAN 译者:吴洁 世界各地无数的组织,他们使用的数据现在...近期Apache软件基金会(ASF)又将一批有趣的开源大数据项目毕业为的Apach...

  • 大数据处理框架及引擎介绍

    主流的大数据处理框架包括以下三类五种:1、仅批处理框架:Apache Hadoop2、仅流处理框架:Apache Storm、Apache Samza3、混合框架:Apache Spark、Apache Flink

  • 当今世界最牛的25位顶尖大数据科学家

    在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们...

  • 当今世界最NB的25位大数据科学家

    在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们...

  • 世界最牛的25位顶尖大数据科学家

    她是Twitter上大数据社区的粉最多的大V之一,被信息周刊(Information Week)评为Twitter上的十位最有影响力的IT领导者之一(“10 IT Leaders to Follow on Twitter”)。 Data Scientists in Action 实践中的大师 ...

  • Apache Doris在网易互娱的应用实践

    离线平台小组目前为广州互娱的大数据离线计算提供了接近 EB 级别的大数据存储集群服务,以及 Hive/Spark/Presto/Doris/ClickHouse 等计算框架的开发与业务支持。 一、背景 随着公司游戏业务的高速发展,越来越多的...

  • 大数据系统架构及技术体系介绍详细文档

    (1)、Flume:Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集...

  • 【Doris】Apache Doris在网易互娱的应用实践

    修改后BE Compaction Score监控 3.3 集群扩缩容经验分享 3.2.1 背景描述 扩缩容操作简单一直是 Doris 广为人知的优势之一。随着业务的不断迁入,网易互娱内部的 Doris 集群经常会遇到扩容的需求,也遇到了一些问题...

  • 万字长文揭穿你,根本就不懂云原生!

    Runtime Runtime这一层可以理解为容器的整个运行环境,是云原生中最核心的部分,它包括了计算、存储、网络三大块: Container Runtime:Docker是最广为人知的容器运行环境,但生产环境下也有一些其他的容器环境在...

  • 万字长文让您搞懂云原生!

    Runtime Runtime这一层可以理解为容器的整个运行环境,是云原生中最核心的部分,它包括了计算、存储、网络三大块: Container Runtime:Docker是最广为人知的容器运行环境,但生产环境下也有一些其他的容器环境在...

  • 小工sevenot简谈大数据

    特别是不少从事售前、客户代表的工作者,无论什么项目都要和大数据扯上关系,生怕表现得不专业。现在网上也有很多文章都有介绍大数据的前世今生,介绍大数据在各行各业的应用,但还是让不少人不得其奥秘。我写这篇...

  • 开源大数据周刊-第6期

    摘要: 大数据的未来就像在沙子里淘金 阿里云E-Mapreduce动态 E-Mapreduce团队 正在研发1.3.2版本及1.4版本,主要包括: Master HA功能用户执行计划及集群运行状态自定义报警集群整体运行情况的仪表盘...

  • 分布式机器学习的故事

    王益博士,称得上机器学习领域的资深从业者,本人之前有幸拜读过王益博士的...可惜的是,这篇原始博文已经删除了,现在能找到的是原始的六篇讲稿素材:A New Era;Infrequent itemset mining;Application Driven;Im

  • Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优

    最终编译的结果为$HIVE_HOME/packaging/target/apache-hive-0.13.1-bin.tar.gz 通过如下命令查看最终编译完成整个目录大小,可以看到大小为353.6M 左右 $du -s /app/complied/hive-0.13.1-src 【注】 ...

  • 毕业设计-线性规划模型Python代码.rar

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、本项目仅用作交流学习参考,请切勿用于商业用途。

  • 调用百度云API, 基于python的微博评论情感偏向分析

    DATA: 可供参考的微博评论数据。 详见 /DATA/weibocommennts.csv CODE: apiGetSheet.py 调用百度API 获得 微博评论对应 文字的 情感得分, sheetGetvalue.py 根据情感得分进行标准化,获得实际倾向。

  • 基于ssm的高速公路收费系统源代码(完整前后端+mysql+说明文档+LW).zip

    管理员 管理员信息管理 负责人管理 员工信息管理 公告信息管理 小型车收费标准设置(元/每公里) 大卡车收费标准设置(元/吨公里) 收费信息统计,统计小车和卡车收费,按月统计 负责人 个人资料修改 公告查看 小车收费统计(某员工某月统计) 大卡车收费统计(某员工某月统计) 员工 个人资料修改 公告查看 小型车收费登记(车牌号,车辆照片,行使公里数,收费金额,收费日期,收费员,按公里数可以自动计算费用 收费金额=收费标准*公里数) 大卡车金额设置(每吨/元)(车牌号,车辆照片,行使公里数,吨,收费金额,收费日期,收费员, 收费金额=收费标准*吨*公里数 ) 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

  • Zabbix是一款开源的监控工具,用于实时监控IT基础设施,包括网络、服务器和应用程序 它通过触发器和告警机制帮助及时发现并响应问题,同时提供数据可视化和报告功能,以优化性能和确保系统安全

    本套zabbix是基于6.0版本部署,内容涵盖zabbix的简介、zabbix server安装、zabbix基本概念、快速入门、zabbix进阶、zabbix实践、zabbix的高级监控使用。 =======知识领域 网络监控:监控网络设备、服务器和应用程序的运行状态。 系统监控:监控服务器性能,如CPU使用率、内存使用情况、网络流量等。 数据库监控:监控数据库性能和状态。 应用程序监控:监控应用程序的运行情况和性能指标。 云监控:监控云服务和虚拟机的健康状况

  • 商品库存管理系统课程设计报告.docx

    商品库存管理系统课程设计报告.docx

  • 嘉兴智能卫浴项目建议书.docx

    嘉兴智能卫浴项目建议书.docx

Global site tag (gtag.js) - Google Analytics