阅读更多

3顶
1踩

开源软件
引用
原文地址:On the Rise: Six Unsung Apache Big Data Projects
作者:SAM DEAN
译者:吴洁

世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会(ASF)又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。

大多数人都听过的Apache Spark,一个针对Streaming, SQL,机器学习和图形处理的内置模块的大数据处理架构。 IBM和其他公司正在投入数十亿美金开发资金到Spark项目,NASA和SETI Institute正在利用Spark的机器学习能力,合作分析TB数量级的外太空无线信号数据,寻找外星智能生命存在的形式。

然而,其他几个最近被Apache擢升为顶级的大数据项目也值得您额外关注。事实上,他们中的一些所构建和发展的生态系统,很可能将对Spark发起挑战。结合本周举行的“ApacheCon北美峰会”(ApacheCon North America conference)和“Apache大数据峰会”(Apache: Big Data events),本文将归纳那些你应该知道的Apache的大数据项目。

下面是六个正在冉冉兴起的项目:

Kylin
Apache近日宣布其Kylin项目,一个始于eBay的开源大数据项目在eBay已经毕业为顶级项目。Kylin是一个开源的分布式分析引擎,旨在提供在Apache Hadoop之上SQL接口的多维分析引擎(OLAP),可支持超大数据集。它已广泛在eBay和其他一些组织中被采用。

“Apache Kylin的孵化之旅已经证明Apache软件基金会(ASF)开源治理的价值,以及围绕项目建设开源社区和生态系统的强大力量。”Apache Kylin副总裁Luke Han(韩卿)说: “我们的开源社区是世界上最大的本土开发者参与的社区,完全依照The Apache Way的社区运作方式。”

作为一个领先的基于Hadoop的OLAP解决方案,Apache Kylin填补了大数据与人使用之间的空白,他补充说道:“使分析人员,最终用户,开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力,Apache Kylin将商业智能(BI)带回Apache Hadoop以释放出大数据的价值。”

Lens
Apache近日宣布,Apache Lens,一个开源的大数据和分析工具,也已经从Apache孵化器毕业成为一个顶级项目(TLP)。根据公告:“Apache Lens是一个统一的分析平台,以统一视图形式为分析查询提供了优化的执行环境。Apache Lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”

“通过在数据之上提供一个在线的分析处理(OLAP)模型,Lens无缝地集成Hadoop和传统数据仓库,提供统一的外部接口。它同时提供系统中查询历史、统计和查询的生命周期管理。”

“在ASF中孵化Apache Lens是一段神奇的经历” Apache Lens的副总裁Amareshwari Sriramadasu说:“Apache Lens从最终用户角度出发,为大数据分析解决了一个难题,它使得业务用户、分析师、开发者和其他用户,可以轻松的进行复杂的数据分析,而不需要了解底层的数据架构。”

Ignite
ASF还宣布Apache Ingite成为了一个顶级项目,一个通过开源方式建立的内存数据网络。Apache Ignite是一个高性能的整合的分布式的内存数据网络,实现在大规模数组上进行实时的计算和交互。Apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”

Brooklyn
ASF宣布Apache Brooklyn已成为一个TLP(顶级项目)。“这标志着该项目的社区和产品在ASF优异的流程和原则下治理有方。”Brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台,并适用于各种云端软件。

Brooklyn 宣称:“随着现代应用程序正在由更多个部件组成,微服务架构又逐渐兴起,部署以及已部署应用的演化越来越成为一个难题。Apache Brooklyn的蓝图提供了一个清晰简洁的方式,在部署到公共云或私有基础设施之前,来规范应用,及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理,会不断地评估运行应用程序,修改以保持它的运行健康和指标优化,例如成本和响应能力。”

Brooklyn已经在一些知名企业中应用。云服务商Canopy和Virtustream已在Brooklyn上提供产品。IBM也已经大规模的使用Brooklyn,以将大量工作从AWS迁移到IBM Softlayer之上。

Apex
今年4月,Apache软件基金会将Apex项目提升至顶级项目。它被称为“应用在Apache Hadoop生态系统的大规模,高吞吐量,低延时,能容错的,统一的大数据流和批量处理平台。” Apex与Apache Hadoop资源管理平台YARN,一起作用于Hadoop工作集群。

Tajo
最后,Apache Tajo,一个领先的Apache Hadoop之上的开源数据仓库系统,成为另一个你需要了解的大数据项目。Apache宣称Tajo提供了针对Hadoop、第三方数据库以及商用BI工具的快速抓取能力。

显然,尽管Apache Spark吸引了大量的眼球,但它不是唯一需要你关注的来自Apache的大数据工具。今年接下去,Apache也许会将更多引人注目的大数据项目升级为顶级项目,这些项目必将由此获得更好的开发资源和更多的受益。(责编/仲浩)
3
1
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 冉起新秀:Apache六大尚未广为人知的大数据项目

    原文地址:On the Rise: Six Unsung Apache Big Data Projects 作者:SAM DEAN 译者:吴洁 世界各地无数的组织,他们使用的数据现在...近期Apache软件基金会(ASF)又将一批有趣的开源大数据项目毕业为的Apach...

  • 大数据处理框架及引擎介绍

    主流的大数据处理框架包括以下三类五种:1、仅批处理框架:Apache Hadoop2、仅流处理框架:Apache Storm、Apache Samza3、混合框架:Apache Spark、Apache Flink

  • 当今世界最牛的25位顶尖大数据科学家

    在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们...

  • 当今世界最NB的25位大数据科学家

    在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们...

  • 世界最牛的25位顶尖大数据科学家

    她是Twitter上大数据社区的粉最多的大V之一,被信息周刊(Information Week)评为Twitter上的十位最有影响力的IT领导者之一(“10 IT Leaders to Follow on Twitter”)。 Data Scientists in Action 实践中的大师 ...

  • Apache Doris在网易互娱的应用实践

    离线平台小组目前为广州互娱的大数据离线计算提供了接近 EB 级别的大数据存储集群服务,以及 Hive/Spark/Presto/Doris/ClickHouse 等计算框架的开发与业务支持。 一、背景 随着公司游戏业务的高速发展,越来越多的...

  • 大数据系统架构及技术体系介绍详细文档

    (1)、Flume:Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集...

  • 【Doris】Apache Doris在网易互娱的应用实践

    修改后BE Compaction Score监控 3.3 集群扩缩容经验分享 3.2.1 背景描述 扩缩容操作简单一直是 Doris 广为人知的优势之一。随着业务的不断迁入,网易互娱内部的 Doris 集群经常会遇到扩容的需求,也遇到了一些问题...

  • 万字长文揭穿你,根本就不懂云原生!

    Runtime Runtime这一层可以理解为容器的整个运行环境,是云原生中最核心的部分,它包括了计算、存储、网络三大块: Container Runtime:Docker是最广为人知的容器运行环境,但生产环境下也有一些其他的容器环境在...

  • 万字长文让您搞懂云原生!

    Runtime Runtime这一层可以理解为容器的整个运行环境,是云原生中最核心的部分,它包括了计算、存储、网络三大块: Container Runtime:Docker是最广为人知的容器运行环境,但生产环境下也有一些其他的容器环境在...

  • 小工sevenot简谈大数据

    特别是不少从事售前、客户代表的工作者,无论什么项目都要和大数据扯上关系,生怕表现得不专业。现在网上也有很多文章都有介绍大数据的前世今生,介绍大数据在各行各业的应用,但还是让不少人不得其奥秘。我写这篇...

  • 开源大数据周刊-第6期

    摘要: 大数据的未来就像在沙子里淘金 阿里云E-Mapreduce动态 E-Mapreduce团队 正在研发1.3.2版本及1.4版本,主要包括: Master HA功能用户执行计划及集群运行状态自定义报警集群整体运行情况的仪表盘...

  • 分布式机器学习的故事

    王益博士,称得上机器学习领域的资深从业者,本人之前有幸拜读过王益博士的...可惜的是,这篇原始博文已经删除了,现在能找到的是原始的六篇讲稿素材:A New Era;Infrequent itemset mining;Application Driven;Im

  • Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优

    最终编译的结果为$HIVE_HOME/packaging/target/apache-hive-0.13.1-bin.tar.gz 通过如下命令查看最终编译完成整个目录大小,可以看到大小为353.6M 左右 $du -s /app/complied/hive-0.13.1-src 【注】 ...

  • yolo算法-电线杆数据集-1493张图像带标签-.zip

    yolo算法-电线杆数据集-1493张图像带标签-.zip;yolo算法-电线杆数据集-1493张图像带标签-.zip;yolo算法-电线杆数据集-1493张图像带标签-.zip

  • yolo算法-电线杆数据集-7255张图像带标签-杆顶.zip

    yolo算法-电线杆数据集-7255张图像带标签-杆顶.zip;yolo算法-电线杆数据集-7255张图像带标签-杆顶.zip;yolo算法-电线杆数据集-7255张图像带标签-杆顶.zip;yolo算法-电线杆数据集-7255张图像带标签-杆顶.zip

  • pillow_avif_plugin-1.2.1-cp37-cp37m-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • 【地震】基于matlab时域有限差分FDTD模拟地震盾构【含Matlab源码 9186期】.mp4

    Matlab领域上传的视频均有对应的完整代码,皆可运行,亲测可用,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

  • 中国高质量发展指标体系-最新发布.zip

    中国高质量发展指标体系-最新发布.zip

  • 【java毕业设计】班级同学录管理系统源码(ssm+mysql+说明文档).zip

    环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7及以上 数据库工具:Navicat11及以上 开发软件:eclipse/idea Maven包:Maven3.3及以上 服务器:tomcat7及以上

Global site tag (gtag.js) - Google Analytics