`
jiezhu2007
  • 浏览: 246712 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
Cfa1f850-3fc3-3a36-9cd8-c3415c9610c6
hadoop技术学习
浏览量:144877
Group-logo
大数据产业分析
浏览量:2992
社区版块
存档分类
最新评论
阅读更多



 

花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书《大数据架构详解:从数据获取到深度学习》。整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了。

 

回想这我500天,我常问自己两个问题:

 

1)我问自己为什么选择去写一本大数据技术的书,是什么让自己坚持?

我感觉可能更多的原因是实践大数据架构和技术这么多年,对技术的理解到一定的程度,心中有许多话不吐不快,因此需要找一个地方完整的表达。

 

2)那大数据从业者或者有志向搞大数据的同学和读者需要一本书?

往往大家误以为大数据是门单点技术,其实大数据技术是一个技术族,大家需要一本完整介绍大数据的技术的书。

 

有了这两个问题的答案,这本书的创意和主题思想也就有了。所以我要写一本从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识点书。

 

书里面主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界最新产品,以及学术界最新的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。

 

(最后打个广告,如果大家对这个本书感兴趣,大家可以到京东,淘宝,当当,亚马逊,互动出版社等都可以预定,京东有现货https://item.jd.com/10826699444.html,谢谢支持!)

 

本书的目录如下,大家看看有没有你感兴趣的内容:

 

第一部分 大数据的本质

第1章 大数据是什么 2

1.1 大数据导论 2

1.1.1 大数据简史 2

1.1.2 大数据现状 3

1.1.3 大数据与BI 3

1.2 企业数据资产 4

1.3 大数据挑战 5

1.3.1 成本挑战 6

1.3.2 实时性挑战 6

1.3.3 安全挑战 6

1.4 小结 6

第2章 运营商大数据架构 7

2.1 架构驱动的因素 7

2.2 大数据平台架构 7

2.3 平台发展趋势 8

2.4 小结 8

第3章 运营商大数据业务 9

3.1 运营商常见的大数据业务 9

3.1.1 SQM(运维质量管理) 9

3.1.2 CSE(客户体验提升) 9

3.1.3 MSS(市场运维支撑) 10

3.1.4 DMP(数据管理平台) 10

3.2 小结 11

第二部分 大数据技术

第4章 数据获取 14

4.1 数据分类 14

4.2 数据获取组件 14

4.3 探针 15

4.3.1 探针原理 15

4.3.2 探针的关键能力 16

4.4 网页采集 26

4.4.1 网络爬虫 26

4.4.2 简单爬虫Python代码示例 32

4.5 日志收集 33

4.5.1 Flume 33

4.5.2 其他日志收集组件 47

4.6 数据分发中间件 47

4.6.1 数据分发中间件的作用 47

4.6.2 Kafka架构和原理 47

4.7 小结 82

第5章 流处理 83

5.1 算子 83

5.2 流的概念 83

5.3 流的应用场景 84

5.3.1 金融领域 84

5.3.2 电信领域 85

5.4 业界两种典型的流引擎 85

5.4.1 Storm 85

5.4.2 Spark Streaming 89

5.4.3 融合框架 102

5.5 CEP 108

5.5.1 CEP是什么 108

5.5.2 CEP的架构 109

5.5.3 Esper 110

5.6 实时结合机器学习 110

5.6.1 Eagle的特点 111

5.6.2 Eagle概览 111

5.7 小结 116

第6章 交互式分析 117

6.1 交互式分析的概念 117

6.2 MPP DB技术 118

6.2.1 MPP的概念 118

6.2.2 典型的MPP数据库 121

6.2.3 MPP DB调优实战 131

6.2.4 MPP DB适用场景 162

6.3 SQL on Hadoop 163

6.3.1 Hive 163

6.3.2 Phoenix 165

6.3.3 Impala 166

6.4 大数据仓库 167

6.4.1 数据仓库的概念 167

6.4.2 OLTP/OLAP对比 168

6.4.3 大数据场景下的同与不同 168

6.4.4 查询引擎 169

6.4.5 存储引擎 170

6.5 小结 171

第7章 批处理技术 172

7.1 批处理技术的概念 172

7.2 MPP DB技术 172

7.3 MapReduce编程框架 173

7.3.1 MapReduce起源 173

7.3.2 MapReduce原理 173

7.3.3 Shuffle 174

7.3.4 性能差的主要原因 177

7.4 Spark架构和原理 177

7.4.1 Spark的起源和特点 177

7.4.2 Spark的核心概念 178

7.5 BSP框架 217

7.5.1 什么是BSP模型 217

7.5.2 并行模型介绍 218

7.5.3 BSP模型基本原理 220

7.5.4 BSP模型的特点 222

7.5.5 BSP模型的评价 222

7.5.6 BSP与MapReduce对比 222

7.5.7 BSP模型的实现 223

7.5.8 Apache Hama简介 223

7.6 批处理关键技术 227

7.6.1 CodeGen 227

7.6.2 CPU亲和技术 228

7.7 小结 229

第8章 机器学习和数据挖掘 230

8.1 机器学习和数据挖掘的联系与区别 230

8.2 典型的数据挖掘和机器学习过程 231

8.3 机器学习概览 232

8.3.1 学习方式 232

8.3.2 算法类似性 233

8.4 机器学习&数据挖掘应用案例 235

8.4.1 尿布和啤酒的故事 235

8.4.2 决策树用于电信领域故障快速定位 236

8.4.3 图像识别领域 236

8.4.4 自然语言识别 238

8.5 交互式分析 239

8.6 深度学习 240

8.6.1 深度学习概述 240

8.6.2 机器学习的背景 241

8.6.3 人脑视觉机理 242

8.6.4 关于特征 244

8.6.5 需要有多少个特征 245

8.6.6 深度学习的基本思想 246

8.6.7 浅层学习和深度学习 246

8.6.8 深度学习与神经网络 247

8.6.9 深度学习的训练过程 248

8.6.10 深度学习的框架 248

8.6.11 深度学习与GPU 255

8.6.12 深度学习小结与展望 256

8.7 小结 257

第9章 资源管理 258

9.1 资源管理的基本概念 258

9.1.1 资源调度的目标和价值 258

9.1.2 资源调度的使用限制及难点 258

9.2 Hadoop领域的资源调度框架 259

9.2.1 YARN 259

9.2.2 Borg 260

9.2.3 Omega 262

9.2.4 本节小结 263

9.3 资源分配算法 263

9.3.1 算法的作用 263

9.3.2 几种调度算法分析 263

9.4 数据中心统一资源调度 271

9.4.1 Mesos+Marathon架构和原理 271

9.4.2 Mesos+Marathon小结 283

9.5 多租户技术 284

9.5.1 多租户概念 284

9.5.2 多租户方案 284

9.6 基于应用描述的智能调度 287

9.7 Apache Mesos架构和原理 288

9.7.1 Apache Mesos背景 288

9.7.2 Apache Mesos总体架构 288

9.7.3 Apache Mesos工作原理 290

9.7.4 Apache Mesos关键技术 295

9.7.5 Mesos与YARN比较 304

9.8 小结 305

第10章 存储是基础 306

10.1 分久必合,合久必分 306

10.2 存储硬件的发展 306

10.2.1 机械硬盘的工作原理 306

10.2.2 SSD的原理 307

10.2.3 3DXPoint 309

10.2.4 硬件发展小结 309

10.3 存储关键指标 309

10.4 RAID技术 309

10.5 存储接口 310

10.5.1 文件接口 311

10.5.2 裸设备 311

10.5.3 对象接口 312

10.5.4 块接口 316

10.5.5 融合是趋势 328

10.6 存储加速技术 328

10.6.1 数据组织技术 328

10.6.2 缓存技术 335

10.7 小结 336

第11章 大数据云化 337

11.1 云计算定义 337

11.2 应用上云 337

11.2.1 Cloud Native概念 338

11.2.2 微服务架构 338

11.2.3 Docker配合微服务架构 342

11.2.4 应用上云小结 348

11.3 大数据上云 348

11.3.1 大数据云服务的两种模式 348

11.3.2 集群模式AWSEMR 349

11.3.3 服务模式Azure Data Lake Analytics 352

11.4 小结 354

第三部分 大数据文化

第12章 大数据技术开发文化 356

12.1 开源文化 356

12.2 DevOps理念 356

12.2.1 Development和Operations的组合 357

12.2.2 对应用程序发布的影响 357

12.2.3 遇到的问题 358

12.2.4 协调人 358

12.2.5 成功的关键 359

12.3 速度远比你想的重要 359

12.4 小结 361 

 


 

 
 

微信扫一扫
关注该公众号

  • 大小: 36.6 KB
2
2
分享到:
评论
1 楼 jiezhu2007 2016-10-28  
主要讲架构的书

相关推荐

    大数据架构详解 从数据获取到深度学习.pptx

    大数据架构详解 从数据获取到深度...《大数据架构详解:从数据获取到深度学习》这本书对大数据和深度学习做了全面深入的讲解,帮助读者获得关于大数据和深度学习的整体认知,并能够理解两大领域在实际场景中的应用。

    2017最新大数据应用书籍

    ### 大数据应用书籍知识点详解 #### 一、SMACK大数据融合架构概述 根据书名“2017最新大数据应用书籍”以及描述中的重复强调,“SMACK大数据融合架构构建大数据应用”是本书的核心主题之一。SMACK代表的是一个集成...

    大数据开发教程及案例.docx

    ### 大数据开发教程及案例知识点详解 #### 一、大数据开发概述 大数据开发涉及到数据的采集、存储、处理、分析以及最终的可视化等多个...这将有助于学习者更好地适应快速变化的大数据领域,为未来的挑战做好准备。

    Hadoop权威指南.大数据的存储与分析.(中文版)(第四版)(有标签)

    《Hadoop权威指南》是大数据领域的一本经典著作,中文版的第四版更是对原书进行了全面的修订和升级,旨在为中国读者提供更贴近实际、更易理解的Hadoop技术详解。这本书深入浅出地讲解了如何利用Hadoop平台进行大规模...

    大数据-系统设计和最佳实践

    - **批量层介绍**:本书重点介绍了大数据架构中的批量层,这是处理历史数据的主要场所,通常用于执行复杂的数据处理任务。 - **存储技术**:详细阐述了在批量层中使用的各种存储技术,比如如何利用Apache Hadoop等...

    大数据实战手册

    书中涵盖了Hadoop的环境搭建、核心组件详解,以及大数据领域中的流式计算和数据挖掘知识。Hadoop是一种开源的分布式系统基础架构,允许用户在不了解分布式底层细节的情况下开发程序,并通过集群运算高速处理和存储...

    大数据存储MongoDB实战指南1

    - 本书通过一系列经典案例,展示了如何在大数据环境中有效使用MongoDB进行数据存储和管理。 - 特别强调了如何根据不同的业务场景选择合适的数据模型和索引策略。 #### 三、MongoDB增删改操作详解 - **增(Insert...

    《SSM企业级框架实战(大数据开发工程师系列)》.pdf

    ### SSM企业级框架实战(大数据开发...对于想要成为大数据开发工程师的读者来说,《SSM企业级框架实战》这本书提供了一个很好的学习资源,不仅可以掌握SSM框架的使用方法,还能了解如何将其应用于实际的大数据项目中。

    Big Data For Dummies

    ### 大数据基础知识详解 #### 一、大数据概念与特点 **标题:“Big Data For Dummies”** **描述:“Big Data For Dummies”** 在《大数据基础》这本指南中,作者Judith Hurwitz、Alan Nugent、Dr. Fern Halper...

    hive大数据书籍

    《Hive编程指南》是大数据领域的一本重要参考资料,它主要关注的是Apache Hive,这是一个用于大数据处理和分析的开源...无论你是数据工程师、数据分析师还是对大数据感兴趣的初学者,这本书都是一个不可或缺的资源。

    Oracle Big Data Handbook

    最后,本书还展望了大数据技术的发展趋势以及Oracle在这一领域的未来规划。随着物联网、人工智能等新兴技术的兴起,Oracle将继续创新和完善其大数据产品线,以满足不断变化的企业需求。 综上所述,《Oracle Big ...

    ZooKeeper-分布式过程协同技术详解.rar

    这本书深入浅出地介绍了ZooKeeper在分布式系统中的应用和核心技术,为读者提供了一条清晰的学习路径。 ZooKeeper是一个开源的分布式协调服务,由雅虎创建并贡献给了Apache软件基金会。它设计的目标是简化分布式环境...

    Ansible自动化运维 技术与最佳实践

    本书主要内容包括:Ansible架构及安装,Ansible组件、组件扩展、API,playbook详解、*实践案例分析,用ansible-vault保护敏感数据,Ansible与云计算的结合,部署Zabbix组件、Haproxy+LAMP架构,以及Ansible在大数据...

    论hadoop的重要性1.zip

    1. “666284 大数据技术体系详解:原理、架构与实践_董西成(著) 机械工业出版社.pdf” - 这本书可能详细介绍了大数据技术的基础、架构以及实践应用,包括Hadoop的原理和实际操作。作者董西成可能会探讨Hadoop如何与...

    计算机网络习题详解

    在信息技术高速发展的今天,计算机网络已成为我们生活中不可或缺的一部分。...因此,这本书不仅能够帮助读者解决实际问题,更能引领他们把握计算机网络的发展脉络,为未来的学习和工作奠定坚实的基础。

    Kafka技术内幕:图文详解Kafka源码设计与实现.郑奇煌(2017.11).pdf

    《Kafka技术内幕:图文详解Kafka源码设计与实现》是郑奇煌在2017年11月出版的一本深入解析Apache Kafka的技术专著。...通过学习这本书,你可以更好地掌握Kafka在实际业务中的应用,为企业的数据流转构建坚实的基础。

    Kafka技术内幕:图文详解Kafka源码设计与实现 高清带书签

    《Kafka技术内幕:图文详解Kafka源码设计与实现》这本书深入剖析了Apache Kafka这一分布式消息系统的内在机制,旨在帮助读者理解Kafka的核心设计理念,掌握其实现方式,并能运用到实际项目中。以下是该书可能涵盖的...

    Big Data Principles and best practices of scalable realtime data systems.pdf

    批处理层是大数据架构中的一个重要组成部分,它负责处理历史数据和执行复杂的分析任务。本章详细介绍了如何在批处理层进行高效的数据存储,包括选择合适的数据库系统、优化查询性能、确保数据安全性和完整性等。 ##...

    greenplum 企业应用实战高清带目录版 解压成pdf

    2. MPP架构详解:如何工作,如何优化性能,以及如何解决可能出现的问题。 3. 数据库设计与优化:表的设计原则,数据分区策略,以及查询优化技巧。 4. ETL过程:如何有效地提取、转换和加载数据到Greenplum。 5. 分析...

Global site tag (gtag.js) - Google Analytics