“大数据”的概念是在最早经历信息爆炸的学科--天文学和基因学中提出来的,而今已经渗透到了各行各业和生活中的方方面面。牛津大学教授维克托曾在《大数据时代》一书中指出,通过对海量数据进行分析,能够获得有巨大价值的产品和服务,或深刻的洞见。大数据引起了商业变革,管理变革,以致思维变革。调整信息系统的架构,使之能够适应大数据时代的需要,成为了工程师们的一个重要课题。
试读章节主要有四个篇章,前两部分分别从电信运营商上网日志的处理和金融银行业的需求谈起,首先阐释了已有的方案以及不足。
对于电信上网日志分析系统,面临的主要问题:
1. 日志数据量巨大,只能够短期保存
2. 基于详细通话记录为主的客户行为分析可能缺失了大量的客户行为有效信息,从而得不到有指导意义的分析结果
而随着信息量的增长,金融银行业以往所使用的关系型数据库不能够满足数据存储的需求。在业务数据处理和历史数据备份两个方面遇到了以下问题:
1. 增加机器性能和存储空间,这将加大核心系统的运营维护成本
2. 大量数据离线存储,将导致客户无法快速获取交易信息,银行自身也很难依据此数据指定决策
这两个例子恰好体现了大数据时代对于IT架构的两个基本需求,一是存储,二是计算。两个案例不约而同地采用Hadoop作为解决方案,也恰恰体现了Hadoop的优势所在:能够实现低成本的海量数据存储,支持分布式计算和数据挖掘。对于海量数据存储和计算,谷歌实验室有关于GFS和Map/Reduce的论文分别讨论。而Hadoop项目也正是受了这两篇论文的启发而建立。
试读的的前两个章节侧重于Hadoop的应用,对于Hadoop集群本身并未作太多技术细节的探讨。后两个章节,优酷土豆和淘宝的工程师,则结合自己公司内的实际应用,讨论了相关的技术细节。
第三章节主要讨论集群安全。身份认证、用户权限以及Web界面访问控制都是Hadoop集群所存在的安全问题。
Kerberos(地狱三头看门狗)的引入,一定程度上解决了这些问题。Kerberos主要由两部分构成,Identity Store主要包含身份认证信息,KDC则是密钥分发服务器。为解决单点故障问题,KDC服务本身也被配置成了主从式,并通过脚本实现主从库中认证信息的同步,从而增强了Kerbeors的可靠性。
为保证平台的安全运营,还应强调操作的安全规范和实时监控。
不得不承认淘宝对于分布式技术的贡献,以及其技术团队的执行力。第四章节阐释了TFS的技术细节。下面是GFS与TFS架构的对比
由开源中收益,并回馈开源社区。这是每一个IT公司及工程师所应做的。第四章节介绍了TFS的系统架构、存储机制,扩容和容灾等,这些都与GFS类似,可看作GFS论文的中文通俗版。最后提出了TFS的发展方向,而这也是每一个分布式系统的发展方向--在保证数据可靠性的基础上提高服务效率、降低存储以及运维成本。
本书尚可,可以一读。
相关推荐
本书《大数据技术及架构图解实战派》应运而生,全面系统地介绍了大数据技术及架构,不仅深入阐述了其基本概念和核心思想,还结合实际案例,图解式地展现了大数据技术在不同行业中的应用,帮助读者更加直观地理解...
【系统架构设计师】论文主要探讨了微服务架构在构建一站式互联网大数据征信平台中的应用,文章首先介绍了背景,指出传统单体架构在面对快速变化的需求和大规模用户量时的不足,以此作为采用微服务架构的理由。...
### 大数据时代少儿阅读推广的创新型策略研究 #### 一、利用大数据技术,提高少儿阅读活动质量 在大数据时代背景下,图书馆面临着前所未有的机遇与挑战。为了更好地服务于少年儿童,提升阅读活动的质量,图书馆...
论企业集成架构设计及应用企业集成架构(Enterprise Integration Arhitecture,EIA) 是企业集成平台的核心,也是解决企业信息孤岛问题的关键。企业集成架构设计包括了企业信息、业务过程、应用系统集成架构的设计。...
信息架构师需要了解新技术,并将这些技术融入架构设计中。例如,利用大数据、机器学习等技术可以帮助更好地理解用户,从而设计出更加个性化的信息架构。 7. 信息架构的挑战:信息架构工作面临多个挑战,包括如何...
文章还提到,在一个金融公司的项目中,作者作为系统架构设计师,全程参与了大数据管理平台的分析规划和设计工作。该项目采用流处理层与批处理层的双层数据处理模式,通过Kafka和Hadoop等技术实现数据处理,成功构建...
SOA在企业集成架构设计中的应用,不仅体现在单个项目的成功实施,更在于它对企业IT环境的长远影响。这种架构设计可以持续满足企业业务发展需求的变化,增强了企业的竞争力。通过SOA架构的实施,企业可以有效地整合已...
根据提供的文件信息,可以看出这份材料主要涉及的是Spring Cloud与Docker在高并发微服务架构设计中的应用,并且提供了关于如何获取该电子书的信息。然而,实际内容并未给出具体的技术细节,而是介绍了如何联系作者...
分布式存储系统架构设计是一项复杂的工程技术,旨在通过将数据分散存储在多台独立设备上,解决传统网络存储系统因存储服务器集中导致的性能瓶颈、可靠性和安全性的焦点问题。分布式存储系统架构的设计通常需要考虑...
云原生架构是基于云原生技术的一组架构原则和设计模式的集合,旨在将云应用中的非业务代码部分进行最大化剥离,从而让云设施接管应用中原有的大量非功能特性(如弹性、韧性、安全、可观测性、灰度等),使业务不再有非...
层次架构设计是软件工程中实现模块化、可维护性和可扩展性的关键设计模式之一。在软件系统的构建过程中,通过采用层次架构,可以使得系统结构更加清晰,并且在很大程度上提高开发效率和质量。软件工程师必须深入理解...
根据给定文件信息,本文将详细解读标题“电商大数据 用数据驱动商和商业案例解析_试读版 PDF电子书下载 带书签目录.pdf”所含有的知识点。 首先,标题中提到的“电商大数据”是一个关于电子商务领域的数据集合,它...
微服务架构是一种现代软件开发的设计原则,它将一个大型应用程序拆分为多个独立服务。每个服务围绕特定业务功能构建,并可通过轻量级的通信机制进行交互。微服务架构强调了服务的独立性、技术的多样性、独立的部署...
系统架构设计师在项目中负责了从分析、规划到设计的全过程,实现了数据的分布式存储和处理,显著提升了金融业务的处理效率和安全性。通过引入区块链技术,构建的对等网络P2P避免了中心化风险,并通过拜占庭容错机制...
NoSQL(Not only SQL )的产生就是为了解决大规模数据集合及多种数据类型带来的挑战,尤其是大数据应用难题。目前NoSQL数据库并没有一个统一的架构,根据其所采用的数据模型可以分为4类:键值(Key-Value)存储...
以电子商务平台项目为例,系统架构设计师参与了项目计划的制定、需求分析、技术方案设计、核心代码编写、协调测试等阶段的工作。在此过程中,利用了企业集成架构技术,将不同数据源整合成全局虚拟数据库,实现数据...
根据提供的信息,我们可以深入挖掘与“软件小设计试读样章”相关的专业知识点。此章节旨在探讨软件设计的核心概念,并通过实例分析来帮助读者更好地理解软件设计的基本原理和技术要点。 ### 软件设计的经典原则 ##...
系统架构设计师必须深入理解并运用各种测试方法,确保开发的软件产品满足设计要求和业务需求。本文基于作者参与的金融数据风控系统项目,深入探讨了单元测试方法及应用,为软件工程领域提供了实际案例和详细实践过程...