Apache六大尚未广为人知的大数据项目

资讯频道 → 开源软件

3顶
1踩

2016-05-18 14:31 by 副主编 mengyidan1988 评论(0) 有9239人浏览

apache hadoop

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

引用

原文地址：On the Rise: Six Unsung Apache Big Data Projects
作者：SAM DEAN
译者：吴洁

世界各地无数的组织，他们使用的数据现在日益庞大而复杂，使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会（ASF）又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着，这些项目将能够得到积极的发展和社区的大力支持。

大多数人都听过的Apache Spark，一个针对Streaming, SQL，机器学习和图形处理的内置模块的大数据处理架构。 IBM和其他公司正在投入数十亿美金开发资金到Spark项目，NASA和SETI Institute正在利用Spark的机器学习能力，合作分析TB数量级的外太空无线信号数据，寻找外星智能生命存在的形式。

然而，其他几个最近被Apache擢升为顶级的大数据项目也值得您额外关注。事实上，他们中的一些所构建和发展的生态系统，很可能将对Spark发起挑战。结合本周举行的“ApacheCon北美峰会”（ApacheCon North America conference）和“Apache大数据峰会”（Apache: Big Data events），本文将归纳那些你应该知道的Apache的大数据项目。

下面是六个正在冉冉兴起的项目：

Kylin
Apache近日宣布其Kylin项目，一个始于eBay的开源大数据项目在eBay已经毕业为顶级项目。Kylin是一个开源的分布式分析引擎，旨在提供在Apache Hadoop之上SQL接口的多维分析引擎（OLAP），可支持超大数据集。它已广泛在eBay和其他一些组织中被采用。

“Apache Kylin的孵化之旅已经证明Apache软件基金会（ASF）开源治理的价值，以及围绕项目建设开源社区和生态系统的强大力量。”Apache Kylin副总裁Luke Han（韩卿）说： “我们的开源社区是世界上最大的本土开发者参与的社区，完全依照The Apache Way的社区运作方式。”

作为一个领先的基于Hadoop的OLAP解决方案，Apache Kylin填补了大数据与人使用之间的空白，他补充说道：“使分析人员，最终用户，开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力，Apache Kylin将商业智能（BI）带回Apache Hadoop以释放出大数据的价值。”

Lens
Apache近日宣布，Apache Lens，一个开源的大数据和分析工具，也已经从Apache孵化器毕业成为一个顶级项目（TLP）。根据公告：“Apache Lens是一个统一的分析平台，以统一视图形式为分析查询提供了优化的执行环境。Apache Lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”

“通过在数据之上提供一个在线的分析处理（OLAP）模型，Lens无缝地集成Hadoop和传统数据仓库，提供统一的外部接口。它同时提供系统中查询历史、统计和查询的生命周期管理。”

“在ASF中孵化Apache Lens是一段神奇的经历” Apache Lens的副总裁Amareshwari Sriramadasu说：“Apache Lens从最终用户角度出发，为大数据分析解决了一个难题，它使得业务用户、分析师、开发者和其他用户，可以轻松的进行复杂的数据分析，而不需要了解底层的数据架构。”

Ignite
ASF还宣布Apache Ingite成为了一个顶级项目，一个通过开源方式建立的内存数据网络。Apache Ignite是一个高性能的整合的分布式的内存数据网络，实现在大规模数组上进行实时的计算和交互。Apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”

Brooklyn
ASF宣布Apache Brooklyn已成为一个TLP（顶级项目）。“这标志着该项目的社区和产品在ASF优异的流程和原则下治理有方。”Brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台，并适用于各种云端软件。

Brooklyn 宣称：“随着现代应用程序正在由更多个部件组成，微服务架构又逐渐兴起，部署以及已部署应用的演化越来越成为一个难题。Apache Brooklyn的蓝图提供了一个清晰简洁的方式，在部署到公共云或私有基础设施之前，来规范应用，及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理，会不断地评估运行应用程序，修改以保持它的运行健康和指标优化，例如成本和响应能力。”

Brooklyn已经在一些知名企业中应用。云服务商Canopy和Virtustream已在Brooklyn上提供产品。IBM也已经大规模的使用Brooklyn，以将大量工作从AWS迁移到IBM Softlayer之上。

Apex
今年4月，Apache软件基金会将Apex项目提升至顶级项目。它被称为“应用在Apache Hadoop生态系统的大规模，高吞吐量，低延时，能容错的，统一的大数据流和批量处理平台。” Apex与Apache Hadoop资源管理平台YARN，一起作用于Hadoop工作集群。

Tajo
最后，Apache Tajo，一个领先的Apache Hadoop之上的开源数据仓库系统，成为另一个你需要了解的大数据项目。Apache宣称Tajo提供了针对Hadoop、第三方数据库以及商用BI工具的快速抓取能力。

显然，尽管Apache Spark吸引了大量的眼球，但它不是唯一需要你关注的来自Apache的大数据工具。今年接下去，Apache也许会将更多引人注目的大数据项目升级为顶级项目，这些项目必将由此获得更好的开发资源和更多的受益。（责编/仲浩）

分享到：

3
顶

1
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

冉起新秀：Apache六大尚未广为人知的大数据项目

原文地址：On the Rise: Six Unsung Apache Big Data Projects 作者：SAM DEAN 译者：吴洁世界各地无数的组织，他们使用的数据现在...近期Apache软件基金会（ASF）又将一批有趣的开源大数据项目毕业为的Apach...

大数据处理框架及引擎介绍

主流的大数据处理框架包括以下三类五种：1、仅批处理框架：Apache Hadoop2、仅流处理框架：Apache Storm、Apache Samza3、混合框架：Apache Spark、Apache Flink

当今世界最牛的25位顶尖大数据科学家

在大数据技术飞速发展的今天，谁才是我们大数据科研与工业界中最有威望的科学家呢？下面我们来进行梳理，共罗列了25位当今世界，无论是在学术与工业界都产生巨大影响的数据科学家（Data Scientists）。他（她）们...

当今世界最NB的25位大数据科学家

世界最牛的25位顶尖大数据科学家

她是Twitter上大数据社区的粉最多的大V之一，被信息周刊(Information Week)评为Twitter上的十位最有影响力的IT领导者之一(“10 IT Leaders to Follow on Twitter”)。 Data Scientists in Action 实践中的大师 ...

Apache Doris在网易互娱的应用实践

离线平台小组目前为广州互娱的大数据离线计算提供了接近 EB 级别的大数据存储集群服务，以及 Hive/Spark/Presto/Doris/ClickHouse 等计算框架的开发与业务支持。一、背景随着公司游戏业务的高速发展，越来越多的...

大数据系统架构及技术体系介绍详细文档

（1）、Flume：Flume最早是Cloudera提供的日志收集系统，目前是Apache下的一个孵化项目，是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集...

【Doris】Apache Doris在网易互娱的应用实践

修改后BE Compaction Score监控 3.3 集群扩缩容经验分享 3.2.1 背景描述扩缩容操作简单一直是 Doris 广为人知的优势之一。随着业务的不断迁入，网易互娱内部的 Doris 集群经常会遇到扩容的需求，也遇到了一些问题...

万字长文揭穿你，根本就不懂云原生！

Runtime Runtime这一层可以理解为容器的整个运行环境，是云原生中最核心的部分，它包括了计算、存储、网络三大块： Container Runtime：Docker是最广为人知的容器运行环境，但生产环境下也有一些其他的容器环境在...

万字长文让您搞懂云原生！

小工sevenot简谈大数据

特别是不少从事售前、客户代表的工作者，无论什么项目都要和大数据扯上关系，生怕表现得不专业。现在网上也有很多文章都有介绍大数据的前世今生，介绍大数据在各行各业的应用，但还是让不少人不得其奥秘。我写这篇...

开源大数据周刊-第6期

摘要：大数据的未来就像在沙子里淘金阿里云E-Mapreduce动态 E-Mapreduce团队正在研发1.3.2版本及1.4版本，主要包括： Master HA功能用户执行计划及集群运行状态自定义报警集群整体运行情况的仪表盘...

分布式机器学习的故事

王益博士，称得上机器学习领域的资深从业者，本人之前有幸拜读过王益博士的...可惜的是，这篇原始博文已经删除了，现在能找到的是原始的六篇讲稿素材：A New Era；Infrequent itemset mining；Application Driven；Im

Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优

最终编译的结果为$HIVE_HOME/packaging/target/apache-hive-0.13.1-bin.tar.gz 通过如下命令查看最终编译完成整个目录大小，可以看到大小为353.6M 左右 $du -s /app/complied/hive-0.13.1-src 【注】 ...

基于改进粒子群算法的DG储能选址定容优化模型：解决电力系统时序性问题的可靠程序解决方案,基于改进粒子群算法的DG储能选址定容模型优化解决电力系统问题,DG储能选址定容模型matlab 程序采用改进粒子

基于改进粒子群算法的DG储能选址定容优化模型：解决电力系统时序性问题的可靠程序解决方案,基于改进粒子群算法的DG储能选址定容模型优化解决电力系统问题,DG储能选址定容模型matlab 程序采用改进粒子群算法，考虑时序性得到分布式和储能的选址定容模型，程序运行可靠这段程序是一个改进的粒子群算法，主要用于解决电力系统中的优化问题。下面我将对程序进行详细分析。首先，程序开始时加载了一些数据文件，包括gfjl、fljl、fhjl1、cjgs和fhbl。这些文件可能包含了电力系统的各种参数和数据。接下来是一些参数的设置，包括三种蓄电池的参数矩阵、迭代次数、种群大小、速度更新参数、惯性权重、储能动作策略和限制条件等。然后，程序进行了一些初始化操作，包括初始化种群、速度和适应度等。接下来是主要的迭代过程。程序使用粒子群算法的思想，通过更新粒子的位置和速度来寻找最优解。在每次迭代中，程序计算了每个粒子的适应度，并更新个体最佳位置和全局最佳位置。在每次迭代中，程序还进行了一些额外的计算，如潮流计算、储能约束等。这些计算可能涉及到电力系统的潮流计算、功率平衡等知识点。最后，程序输

数学建模相关主题资源2

实验程序与文档报告撰写指南：科研和工程项目的综合资源介绍及应用技巧

内容概要：本文详细介绍了一系列用于科学研究、工程项目和技术开发中至关重要的实验程序编写与文档报告撰写的资源和工具。从代码托管平台(GitHub/GitLab/Kaggle/CodeOcean)到云端计算环境(Colab)，以及多种类型的编辑器(LaTeX/Microsoft Word/Overleaf/Typora)，还有涵盖整个研究周期的各种辅助工具：如可视化工具（Tableau）、数据分析平台(R/Pandas)、项目管理工具(Trello/Jira)、数据管理和伦理审核支持(Figshare/IRB等)，最后提供了典型报告的具体结构指导及其范本实例链接(arXiv/PubMed)。这为实验流程中的各个环节提供了系统的解决方案，极大地提高了工作的效率。适合人群：高校学生、科研工作者、工程技术人员以及从事学术写作的人员，无论是新手入门还是有一定经验的人士都能从中受益。使用场景及目标：帮助读者高效地准备并开展实验研究活动；促进团队间协作交流；规范研究报告的形式；提高对所收集资料的安全性和隐私保护意识；确保遵循国际公认的伦理准则进行实验。

四轮毂驱动电动汽车稳定性控制策略：基于滑模与模糊神经网络的转矩分配与仿真研究,四轮毂驱动电动汽车稳定性控制：基于滑模与模糊神经网络的转矩分配策略及联合仿真验证,四轮毂驱动电动汽车稳定性控制，分布式驱动

四轮毂驱动电动汽车稳定性控制策略：基于滑模与模糊神经网络的转矩分配与仿真研究,四轮毂驱动电动汽车稳定性控制：基于滑模与模糊神经网络的转矩分配策略及联合仿真验证,四轮毂驱动电动汽车稳定性控制，分布式驱动转矩分配。上层基于滑模，模糊神经网络控制器决策横摆力矩，下层基于动态载荷分配，最优分配，平均分配均可做。 simulink与carsim联合仿真。 ,四轮毂驱动;电动汽车稳定性控制;分布式驱动;转矩分配;滑模控制;模糊神经网络控制器;横摆力矩;动态载荷分配;最优分配;平均分配;Simulink仿真;Carsim仿真,四驱电动稳定性控制：滑模与模糊神经网络决策的转矩分配研究

PyCharm 安装教程.zip

本资源提供了一份详细的PyCharm安装教程，涵盖下载、安装、配置、激活及使用步骤，适合新手快速搭建Python开发环境。

3顶1踩