Eagle是eBay开源的一个分布式实时安全监控方案。通过离线训练模型集合实时流引擎监控,能立即监测出对敏感数据的访问或恶意的操作,并立即采取应对的措施。下图是Eagle的架构。
Eagle的数据行为监控方案可用于如下几类典型场景:
-
监控Hadoop中的数据访问流量
-
检测非法入侵和违反安全规则的行为
-
检测并防止敏感数据丢失和访问
-
实现基于策略的实时检测和预警
-
实现基于用户行为模式的异常数据行为检测
Eagle特点
-
高实时: 我们充分理解安全监控中高度实时和快速反应的重要性,因此设计Eagle之初,我们竭尽可能地确保能在亚秒级别时间内产生告警,一旦综合多种因素确订为危险操作,立即采取措施阻止非法行为。
-
可伸缩:在eBay Eagle 被部署在多个大型Hadoop集群上,这些集群拥有数百PB的数据,每天有8亿以上的数据访问时间,因此Eagle必须具有处理海量实时数据的高度可伸缩能力。
-
简单易用:可用性也是Eagle产品的核心设计原则之一。通过Eagle的Sandbox,使用者仅需数分钟便可以设置好环境并开始尝试。为了使得用户体验尽可能简单,我们内置了许多很好的例子,只需简单地点击几步鼠标,便可以轻松地完成策略地创建和添加。
-
用户Profile:Eagle 内置提供基于机器学习算法对Hadoop中用户行为习惯建立用户Profile的功能。我们提供多种默认的机器学习算法供你选择用于针对不同HDFS特征集进行建模,通过历史行为模型,Eagle可以实时地检测异常用户行为并产生预警。
Eagle框架
Eagle核心框架提供实时监控系统开发过程中所需要的大部分重要基础组件,例如:
轻量级分布式流处理框架:以DAG为基础模型对通用流处理范式进行抽象,在开发期用户只需基于DSL API定义监控程序的流式处理逻辑,运行期再选择实际物理执行环境,默认支持单进程和Storm,同时也支持对于其他执行环境的扩展,比如Spark Streaming 或者 Flink等。
实时流聚合引擎:提供简单易用的实时流聚合规则定义语法,元数据驱动,动态部署,实现线性扩展的实时监控数据流聚合。
分布式Policy引擎:分布式实时预警规则执行引擎,提供类SQL的描述性规则定义语法以及机器学习自动等多种扩展,支持预警规则的动态加载和分区。
存储和查询框架:通用监控数据存储框架,可用于存储和查询日志,指标,警报,事件等多种类型数据,默认支持HBase,并针对HBase进行多种优化和扩展,比如coprocesser,二级索引以及分区等,也支持其他存储类型的扩展比如RDBMS等,并提供通用的ORM, REST API以及易用强大的类SQL查询语法。
可定制化监控报表:提供类Notebook的交互式实时可视化分析,也支持进一步选取部分图标,并定义布局保存为dashboard以供分享或者持续监控。
Eagle 针对不同的应用场景提供多种上层应用,例如
Eagle JPA: 实时监控Hadoop 或者 Spark等平台上的作业当前和历史执行状态,提供多维度不同粒度的性能分析,支持多种异常预警和性能警告,比如作业运行时间过长,读写过慢,数据倾斜,失败任务比率过多等,可有效在作业无法满足SLA之前提供预警和性能建议,同时结合机器学习模型,基于任务分布或指标变化等协同预测任务或者服务器节点等可能潜在的异常,并集成Remediation系统对系统进行自动修复。
Eagle DAM:实时监控用户行为,以保证数据安全,支持HDFS, HIVE等不同数据类型,提供简单高效的数据流接入Plugin,支持简单规则定义语法,结合机器学习算法对用户行为建模(User Profiling),自动探测异常用户行为,可集成Dataguides等对敏感数据进行监控,也可集成Apache Ranger等对异常用户行为进行限制。
此外,Eagle 支持以AmbariPlugin等方式方便地安装和集成到现有集群中,并提供友好的用户界面进行管理。
转自:http://jiezhu2007.iteye.com/blog/2286579
相关推荐
1. 实时监控:大数据Hadoop平台监控、预警及自动化可以实时地监控Hadoop集群的健康状态和性能,从而避免或减少故障的影响。 2. 预警功能:大数据Hadoop平台监控、预警及自动化可以实时地预警可能的故障或问题,从而...
在eBay的环境中,Eagle监控着数百个集群、数万个节点、上百PB的数据,每天处理十亿级别的事件、数千种指标类型、数万个作业和数百万个任务。通过这些强大的功能,Apache Eagle确保了Hadoop平台的安全、健康、可用性...
Eagle 的主要目标是解决在大规模 Hadoop 生态系统中的实时监控和安全问题,尤其是在数据量庞大的情况下,传统监控工具如 Zabbix、Ganglia 等无法有效处理的挑战。 Apache Eagle 的历史可以追溯到2013年底,当时 ...
Apache Eagle是一个...总的来说,Apache Eagle是一个针对大规模Hadoop环境设计的高效监控和预警框架,通过其强大的实时处理能力、可扩展性和智能化特性,为企业提供了一种能够适应快速变化的大数据环境的解决方案。
最初由eBay公司发起,目的是监控Hadoop生态系统中的各种活动,包括数据安全性、访问活动、平台健康状况、可用性以及性能表现等。Eagle能够实时识别对敏感数据的访问,识别潜在的攻击和恶意行为,并能够实时地阻止...
此外,Eagle不仅要监控Hadoop的数据安全和活动,还要关注平台的健康、可用性和性能。 未来的发展方向可能包括: 1. **增强智能化**:利用更先进的机器学习和人工智能技术,提升异常检测的准确性。 2. **扩展兼容性...
- **简介**:Apache Eagle是一款针对Hadoop集群的安全监控方案。 - **最新版本**:Apache Eagle,此版本发布于一年前。 - **功能**: - Hadoop数据安全监控; - 异常检测; - 安全事件管理。 #### HTTP(S)流量...
1. **实时监控**:Eagle 可以实时收集和分析大数据集群的指标,如 Hadoop、Spark、HBase 等的性能数据。 2. **警报系统**:基于预定义的规则和阈值,Eagle 可以在发现问题时立即触发警报,帮助运维团队迅速响应。 3....
Apache Eagle 是一个实时监控和警报平台,专为大规模数据基础设施设计。它的主要目标是帮助企业快速发现、理解和解决数据安全和性能问题。Eagle 0.5.1 版本是一个稳定版本,提供了多种改进和新特性,以增强用户体验...
Kafka-Eagle 是一个针对 Kafka 的管理和监控工具,提供图形用户界面,方便用户进行集群管理、监控和报警。版本 3.0.1 提供了更多的功能和改进。 - **主要功能**:Kafka-Eagle 可以帮助监控 Kafka 集群的状态,包括 ...
EFAK(原名为Kafka Eagle)是一个专门用于Kafka集群监控的开源工具,它提供了丰富的可视化界面,可以帮助管理员轻松地监控Kafka节点的状态、消费组、主题等信息。在本教程中,我们将介绍如何在Linux系统上安装并配置...
监控工具帮助我们实时了解Hadoop集群的运行状况: 1. **NameNode的50070端口**:提供集群基本信息和状态监控,包括作业信息、节点分布、HDFS文件信息等。 2. **CLI工具**:如`yarn`和`mapred`,用于查看作业运行...
《Hadoop大数据挖掘从入门到进阶实战》 内容简介 ...最后一章对Hadoop进行了拓展,剖析了Kafka消息系统并介绍了笔者的开源监控系统Kafka Eagle。 本书结构清晰、案例丰富、通俗易懂、实用性强。特别适合
eBay开发的Eagle系统,旨在实时检测基于用户行为配置文件的异常行为,并智能地保护Hadoop生态系统的数据安全。Eagle系统通过分析内核密度估计(KDE)算法和实现的源代码,发现了系统的两个安全风险:首先,用户配置...
Apache:registered:Eagle:trade_mark:是一个开源分析解决方案,用于立即识别大数据平台(例如Apache Hadoop,Apache Spark,NoSQL等)上的安全性和性能问题。它分析数据活动,yarn应用程序,jmx指标和守护程序日志等...
52. **Eagle**: 安全和性能分析工具,用于监控大数据平台。 53. **Ignite**: 内存为中心的数据平台,提供内存计算、缓存和流处理功能。 54. **Twill**: 简化Hadoop YARN上分布式应用的开发,抽象出更高级别的编程...
5. **监控管理**:借助Apache Eagle等工具,实现对集群服务审计日志的实时分析和用户行为的智能监控,及时预警异常操作。 **安全管理系统案例** - **通用权限系统产品架构设计**:这通常涉及设计一个灵活且可扩展...
Apache:registered:Eagle:trade_mark:是一个开源分析解决方案,用于立即识别大数据平台(例如Apache Hadoop,Apache Spark,NoSQL等)上的安全和性能问题。它分析数据活动,yarn应用程序,jmx指标和守护程序日志等,...
监控管理方面,利用Apache Eagle等实时分析工具,对集群服务审计日志和用户行为进行智能分析,以便及时发现并预警潜在的安全风险。 总的来说,大数据安全架构设计是一个综合性的解决方案,涵盖了从标准制定到技术...
* Hive2.3.6基于Hadoop的数据仓库工具,支持通过Hive SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。 * Tez0.9.2构建在YARN之上的应用程序框架,允许使用复杂的有向无环图来处理数据。 * HBase1.4.10分布式...