《大数据时代的IT架构设计》从实际案例角度分析了各个领域(互联网、金融、教育)架构经验,对架构设计工作来说是不可多得的好东西,能集思广益。对有架构基础的人受益匪浅,值得阅读!
第1部分主要简述了Hadoop平台应用架构,3个实际架构分析来很好的描述了Hadoop技术架构的应用。
什么是Hadoop?
一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。http://hadoop.apache.org/ 在此不做介绍了
Hadoop技术在电信运营商上网日志处理中的应用架构
问题:传统基于CDR营销方案可能缺失大量有效客户信息,营销不准确。
解决方式:通过hadoop实现网上日志存储,提供数据挖掘处理,以保证精确营销。
1.日志数据处理
从用户日志中分析URL,通过抓取、对比、标记等工作对网页分类,在利用模型统计相关数据。
2.技术架构方案
方案介绍:
数据源:上网日志、用户基本信息等数据。来源:数据库、文件系统等
接口层:提供统一对外访问接口,负责同外部系统数据交换。包括数据采集接口,提供外部调用接口等。如日志采集,对外访问接口(webservice)
数据层:核心层,将数据源数据通过整理(过滤、转换、校验)定义成相应的数据模型,加载到分布式存储中(HBase)
功能层:实现数据流程模块的模块化处理,负责集群访问控制、系统报警日志管理、Hadoop集群运行管理等。
资源层:对物理资源层和系统平台层提供统一管理,以提供自动化部署和弹性运维能力。如增加、减少硬件、宕机等,系统如何自动优化部署调用等。
应用层:应用功能的具体算法实现。和业务关联模块
展示层:提供应用功能处理结果的展示。如WEB、图形、Execl等
房子设计好了,就靠自己造了!
Hadoop平台在金融银行业的应用架构
金融业务数据量快速增长,关系型数据库带来巨大压力。目前应对策略:
1、增加核心系统机器性能和存储空间,提高业务数据处理能力。 问题:增加核心系统的运营维护成本
2、备份历史数据,减轻核心系统的压力;问题:大量离线存储数据,历史数据查询缓慢
解决方案:通过hadoop架构存储银行离线数据,对数据进行挖掘分析,如快速响应历史查询等。
银行业务逻辑:
hadoop架构模式同案例一中的类似:
各个模块含义同方案一,在此不累赘
优酷土豆Hadoop平台开放之路
主要讲述了开发平台搭建过程中的安全问题:身份认证、用户权限、web界面访问控制等。
1、Linux终端随意连接
2、非法应用的连接
3、用户身份冒充
4、slave节点随意添加
解决方法:
1、引入Kerberos:分Identity Store 和KDC 两部分。其中Identity Store 主要包含身份认证信息,KDC 为密钥分发服务器。新增用户、新增节点需要在Kerberos 上分配相应的身份信息。
2、用户组信息控制
将用户的组信息持久化到一个独立的关系数据库中,进行集中管理。以及相应的管理工具DPM.
3、Web UI 访问控制
通过Token及用户身份绑定,实现权限控制。
下面展示下平台安全架构图
淘宝海量文件存储实践
主要对淘宝分布式文件系统TFS的介绍;地址:http://code.taobao.org/p/tfs/src/
文章中对存储机制、平滑扩容机制、运维管理、机房容灾等都做了详细的介绍,对架构有初步了解。
TFS是一个高可用、高性能、高可扩展的分布式文件系统,基于普通的Linux 服务器构建,主要提供海量非结构化数据存储服务。
TFS是一个高可用、高性能、高可扩展的分布式文件系统,基于普通的Linux 服务器构建,主要提供海量非结构化数据存储服务。
以数据块block为单位存储和组织数据,每个block 在集群中拥有全局唯一的数据块编号block id,block中的文件拥有一个block 内唯一的文件编号file id,
blockId+fieldId=标识唯一文件
NameServer:HA 来避免NameServer单点故障。
DataServer:一台机器上部署多个DataServer进程,通过心跳管理所用dataServer
本书分享的不少架构经验,给了不少启发!当然自动动手实践也很重要!
相关推荐
"大数据技术及架构图解实战派" 本书《大数据技术及架构图解实战派》是一本全面介绍大数据技术及架构的书籍,旨在帮助读者深入理解大数据技术的内涵、应用场景和实际应用。以下是本书的主要知识点: 一、 大数据...
【系统架构设计师】论文主要探讨了微服务架构在构建一站式互联网大数据征信平台中的应用,文章首先介绍了背景,指出传统单体架构在面对快速变化的需求和大规模用户量时的不足,以此作为采用微服务架构的理由。...
根据提供的文件信息,可以看出这份材料主要涉及的是Spring Cloud与Docker在高并发微服务架构设计中的应用,并且提供了关于如何获取该电子书的信息。然而,实际内容并未给出具体的技术细节,而是介绍了如何联系作者...
论企业集成架构设计及应用企业集成架构(Enterprise Integration Arhitecture,EIA) 是企业集成平台的核心,也是解决企业信息孤岛问题的关键。企业集成架构设计包括了企业信息、业务过程、应用系统集成架构的设计。...
### 大数据时代少儿阅读推广的创新型策略研究 #### 一、利用大数据技术,提高少儿阅读活动质量 在大数据时代背景下,图书馆面临着前所未有的机遇与挑战。为了更好地服务于少年儿童,提升阅读活动的质量,图书馆...
信息架构师需要了解新技术,并将这些技术融入架构设计中。例如,利用大数据、机器学习等技术可以帮助更好地理解用户,从而设计出更加个性化的信息架构。 7. 信息架构的挑战:信息架构工作面临多个挑战,包括如何...
Lambda架构是大数据平台里最成熟、最稳定的架构,它是一种将批处理和流处理结合起来的大数据处理系统架构,其核心思想是将批处理作业和实时流处理作业分离,各自独立运行,资源互相隔离,解决传统批处理架构的延迟...
云原生架构是基于云原生技术的一组架构原则和设计模式的集合,旨在将云应用中的非业务代码部分进行最大化剥离,从而让云设施接管应用中原有的大量非功能特性(如弹性、韧性、安全、可观测性、灰度等),使业务不再有非...
根据提供的信息,我们可以深入挖掘与“软件小设计试读样章”相关的专业知识点。此章节旨在探讨软件设计的核心概念,并通过实例分析来帮助读者更好地理解软件设计的基本原理和技术要点。 ### 软件设计的经典原则 ##...
分布式存储系统(Distributed Storage System)通常将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大...
根据给定文件信息,本文将详细解读标题“电商大数据 用数据驱动商和商业案例解析_试读版 PDF电子书下载 带书签目录.pdf”所含有的知识点。 首先,标题中提到的“电商大数据”是一个关于电子商务领域的数据集合,它...
论微服务架构及其应用近年来,随着互联网行业的迅猛发展,公司或组织业务的不断扩张,需求的快速变化以及用户量的不断增加,传统的单块(Monolithic)软件架构面临着越来越多的挑战,已逐渐无法适应互联网时代对软件...
企业应用集成(Enterprise Application Integration, EAI)是每个企业都必须要面对的实际问题。面向服务的企业应用集成是一种基于面向服务体系结构(Service-OrientedArchitecture,SOA)的新型...增强企业IT环境的灵活性。
NoSQL(Not only SQL )的产生就是为了解决大规模数据集合及多种数据类型带来的挑战,尤其是大数据应用难题。目前NoSQL数据库并没有一个统一的架构,根据其所采用的数据模型可以分为4类:键值(Key-Value)存储...
根据提供的文件信息,内容涉及到游戏设计领域的一本重要著作《游戏设计梦工厂试读样章》,并且提到了游戏设计大师陈星汉及其恩师Tracy Fullerton的作品,以及相关的版权信息和出版社信息。以下是对这些信息的详细...
数字化专项 架构参考模型