`
manzhizhen
  • 浏览: 293345 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Flume快速入门(一):背景简介

阅读更多

       Flume由Cloudera于2009年7月开源,后变成Apache的顶级项目之一,由Java语言开发,致力于解决大量日志流数据的迁移问题。日志是大数据分析领域的主要数据来源之一,如何将线上成百上千的业务系统日志高效、可靠的迁移到我们的hdfs中去,Flume提供了一个很好的解决方案。Flume——一个纯粹为流式数据迁移而生的分布式服务。

       现如今,几乎所有开源的成熟的解决方案都说自己是分布式的,可能大家对分布式的概念逐渐弱化了,我们这里先来小小的回顾一下分布式的概念,在软件设计领域,分布式概念的出现是为了解决集中式的中心单点和难以维护、扩展性差等问题,在采用分布式的软件设计时,一个业务由多个业务模块来协助完成,各个业务模块之间通过网络来通讯,分布式软件系统在设计时需要充分考虑到业务的解耦和功能的可扩展性,分布式避免了单点的问题,提供了更稳定的系统服务,但分布式系统同时提升了软件系统的复杂度(包括考虑到模块之间通信接口的制订、网络的不可靠规避等),并对系统运维有了更高的要求。分布式系统说白了就是建立在网络通信上的系统,那分布式和集群有什么区别呢?我们也经常说集群部署,集群中的所有服务器完成的功能是一致的,所以集群中的服务器都是等价的,集群部署解决的是业务处理吞吐量不够的问题,我部署更多的服务器,这样就能使同时处理的更多业务,从而增加服务提供能力。而在分布式系统中,部署的各个业务模块功能是不相同的,比如分布式系统中有订单模块、用户模块、交易模块和营销模块等,但为了保证各个业务模块的可靠性和服务输出能力,每个模块都需要集群部署。

       扯远了,现在回到Flume的话题上来,写本文时,Flume的最新版本是1.6.0,其实,Flume发发展经历了两代(Generation),第一代指0.9.x版本,现在叫做Flume OG,即Flume老的一代,Flume OG中依赖了ZooKeeper,所以采用的是主从的设计,如下图:

但从1.x版本开始,Flume去掉了ZooKeeper的依赖,变成了一种更纯粹流数据传输工具,即第二代Flume NG,如下图:

 

Agent component diagram

关于OG和NG的差别,大家可以在网上和Flume官网查询资料对比,本文针对的是Flume NG。

       Flume是一种Java服务,需要单独部署。Flume的具体设计,下章继续。下一篇:http://manzhizhen.iteye.com/blog/2298159

 

       

分享到:
评论

相关推荐

    Hadoop快速入门

    ### Hadoop快速入门知识点梳理 #### 一、Hadoop概览与背景介绍 **1.1 何为Hadoop** - **定义**:Hadoop是一个由Apache基金会支持的开源软件框架,旨在通过集群中的普通商用硬件来处理大量数据集。 - **核心功能**...

    hadoop快速入门

    ### Hadoop快速入门知识点梳理 #### 一、Hadoop概览 **1.1 Hadoop定义** - **定义**:Hadoop是Apache基金会旗下的开源软件框架,主要用于在大规模集群环境中处理和存储海量数据。 - **核心特点**:通过提供分布式...

    hadoop入门学习文档

    - **HBase**:一个分布式的、面向列的数据库,用于存储海量数据。它可以实时读写大数据,非常适合实时数据处理场景。 - **ZooKeeper**:分布式协调服务,为分布式应用程序提供一致性服务,如配置维护、域名服务、...

    Druid 入门

    ### Druid 入门知识点详解 #### 1. 初识 Druid ##### 1.1 Druid 是什么? - **背景与起源**:Druid 由美国广告技术公司 MetaMarkets 创建于 2011 年,并于 2012 年末开源。其设计初衷是为了满足实时数据分析的...

    Hadoop_in_Practice

    Hadoop 快速入门** - **Hadoop 概述**:Hadoop 是一个能够对大量数据进行分布式处理的软件框架,它使得可以非常高效地处理PB级别的数据。其核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。 - **...

    新能源汽车数仓项目.txt

    #### 一、新能源汽车数仓项目背景与意义 在当前的大数据时代背景下,新能源汽车行业面临着大量的数据处理需求。这些数据不仅包括车辆本身的运行数据,还包括用户行为数据、市场销售数据等多维度的信息。为了更好地...

    hadoop in practice

    - **Hadoop 快速入门**:本书首先介绍了 Hadoop 的基本概念、发展历程及其在大数据处理领域的核心价值。这部分内容有助于读者快速了解 Hadoop 的基础知识,为后续深入学习打下坚实的基础。 - **数据物流**:本书详细...

    nosql 入门教程

    第一部分 NoSQL入门 第1章 NoSQL的概念及适用范围 2 1.1 定义和介绍 3 1.1.1 背景与历史 3 1.1.2 大数据 5 1.1.3 可扩展性 7 1.1.4 MapReduce 8 1.2 面向列的有序存储 9 1.3 键/值存储 11 1.4 文档数据库 ...

    Big Data Made Easy

    《Big Data Made Easy》一书旨在为读者提供一个全面且易于理解的大数据Hadoop生态系统入门教程。本书通过实践案例的形式,深入浅出地介绍了Hadoop及其周边工具的安装、配置、使用及故障排除等各个方面,特别适合希望...

    JAVA上百实例源码以及开源项目源代码

    简介 笔者当初为了学习JAVA,收集了很多经典源码,源码难易程度分为初级、中级、高级等,详情看源码列表,需要的可以直接下载! 这些源码反映了那时那景笔者对未来的盲目,对代码的热情、执着,对IT的憧憬、向往!...

    big-data-2015:波士顿大数据技术大会2015的源代码和幻灯片-Big source code

    4. 大数据生态系统:在2015年的背景下,大数据生态系统的组件包括NoSQL数据库(如MongoDB、Cassandra)、消息队列(如Kafka)、数据集成工具(如Sqoop、Flume)以及数据治理工具(如Hive、Pig)。这些工具共同构建了...

Global site tag (gtag.js) - Google Analytics