`

大数据:技术与应用实践指南(中国工程院院士倪光南倾情作序,雷万云、毛新生、段永朝、安晖联合力荐)

 
阅读更多
大数据:技术与应用实践指南(中国工程院院士倪光南倾情作序,雷万云、毛新生、段永朝、安晖联合力荐

赵刚

ISBN 978-7-121-21560-5

201310月出版

定价:59.00

292

16
 

编辑推荐

1、赵刚博士在信息化领域耕耘10余年,对大数据的认识深刻且系统。

2、阐述的视角放在了大数据的技术应用上,对于想利用大数据的读者非常具有参考价值。

3、结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。

内容提要

大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。本书由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。

本书既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。

目录

1 大数据的概念和发展背景..........................................................................1

1.1 大数据的发展背景..................................................................................................1

1.2 大数据的概念和特征..............................................................................................4

1.2.1 大数据的概念.................................................................................................4

1.2.2 大数据的特征.................................................................................................4

1.3 大数据的产生..........................................................................................................5

1.3.1 数据产生由企业内部向企业外部扩展...........................................................5

1.3.2 数据产生从Web 1.0 Web 2.0、从互联网向移动互联网扩展.....................6

1.3.3 数据产生从计算机/互联网(IT)向物联网(IOT)扩展..............................7

1.4 数据的量级..............................................................................................................7

1.4.1 数据大小的量级.............................................................................................7

1.4.2 大数据的量级.................................................................................................8

1.5 大量不同的数据类型..............................................................................................8

1.5.1 按照数据结构分类.........................................................................................9

1.5.2 按照产生主体分类....................................................................................... 12

1.5.3 按照数据作用方式分类................................................................................ 13

1.6 大数据的速度........................................................................................................ 14

1.7 大数据的潜在价值................................................................................................ 14

1.8 大数据的挑战........................................................................................................ 15

1.8.1 业务视角不同带来的挑战............................................................................ 15

1.8.2 技术架构不同带来的挑战............................................................................ 15

1.8.3 管理策略不同带来的挑战............................................................................. 16

2 大数据应用的业务需求................................................................. 17

2.1 大数据应用的业务流程........................................................................................ 17

2.1.1 产生数据...................................................................................................... 17

2.1.2 聚集数据...................................................................................................... 18

2.1.3 分析数据...................................................................................................... 19

2.1.4 利用数据...................................................................................................... 19

2.2 大数据应用的业务价值........................................................................................ 19

2.2.1 发现大数据的潜在价值................................................................................ 20

2.2.2 实现大数据整合创新的价值........................................................................ 20

2.2.3 新领域再利用的价值................................................................................... 21

2.3 各行业大数据应用的个性需求............................................................................ 21

2.3.1 互联网与电子商务行业................................................................................ 21

2.3.2 零售业.......................................................................................................... 27

2.3.3 金融业.......................................................................................................... 28

2.3.4 政府.............................................................................................................. 32

2.3.5 医疗业.......................................................................................................... 34

2.3.6 能源业.......................................................................................................... 36

2.3.7 制造业.......................................................................................................... 37

2.3.8 电信运营业.................................................................................................. 39

2.3.9 交通物流业.................................................................................................. 41

2.4 企业级大数据应用的共性需求............................................................................ 42

2.4.1 客户分析...................................................................................................... 42

2.4.2 绩效分析...................................................................................................... 46

2.4.3 欺诈和风险评估........................................................................................... 48

2.5 以银行客户分析为例,分析一个大数据的应用场景....................................... 49

3 大数据应用的总体架构和关键技术.............................................................. 51

3.1 总体架构................................................................................................................. 51

3.1.1 业务目标...................................................................................................... 51

3.1.2 架构设计原则............................................................................................... 52

3.1.3 总体架构参考模型....................................................................................... 55

3.1.4 总体架构的特点........................................................................................... 58

3.2 大数据存储和处理技术........................................................................................ 59

3.2.1 Hadoop:分布式存储和计算平台................................................................ 59

3.2.2 Hadoop HDFS:分布式文件系统............................................................. 65

3.2.3 Hadoop MapReduce:分布式计算框架.................................................... 72

3.2.4 Hadoop NoSQL:分布式数据库.............................................................. 98

3.2.5 Hadoop 之外的大数据计算技术................................................................. 113

3.3 大数据查询和分析技术:SQL on Hadoop ....................................................... 126

3.3.1 Hive:基本的Hadoop 查询和分析............................................................. 127

3.3.2 Hive 2.0Hive 的优化和升级.................................................................... 137

3.3.3 实时互动的SQLImpala drill .............................................................. 140

3.3.4 基于PostgreSQL SQL on Hadoop........................................................... 146

3.4 大数据高级分析和可视化技术.......................................................................... 147

3.4.1 传统数据仓库与联机分析处理技术........................................................... 147

3.4.2 大数据对传统分析的挑战.......................................................................... 150

3.4.3 大数据挖掘与高级分析.............................................................................. 150

3.4.4 大数据挖掘与高级分析库:Mahout........................................................... 155

3.4.5 非结构化复杂数据分析.............................................................................. 156

3.4.6 实时预测分析............................................................................................. 163

3.4.7 开源可视化工具:R 语言.......................................................................... 170

3.4.8 可视化技术................................................................................................ 178

3.5 以银行客户分析为例的大数据的技术环境部署............................................. 187

3.5.1 银行客户大数据应用体系架构................................................................... 187

3.5.2 技术环境安装与配置................................................................................. 189

4 大数据与企业级应用的整合策略............................................................... 202

4.1 大数据传输、整合和流程管理平台................................................................. 203

4.1.1 数据传输.................................................................................................... 203

4.1.2 数据整合.................................................................................................... 209

4.1.3 流程管理.................................................................................................... 211

4.2 大数据与存储架构的整合.................................................................................. 215

4.2.1 传统存储架构比较..................................................................................... 215

4.2.2 大数据平台的存储架构的选择................................................................... 216

4.2.3 集群存储的发展......................................................................................... 217

4.2.4 基于HDFS 的集群存储.............................................................................. 219

4.2.5 固态硬盘(SSD)对内存计算的支持........................................................ 221

4.3 大数据与网络架构的发展.................................................................................. 221

4.4 大数据与虚拟化技术的整合.............................................................................. 227

4.5 在云计算平台上的大数据云.............................................................................. 229

4.6 大数据与信息安全.............................................................................................. 231

4.7 以银行客户分析为例,分析一个大数据的平台整合..................................... 234

5 大数据应用的实践方法与案例................................................................... 235

5.1 实践方法论.......................................................................................................... 235

5.1.1 业务需求定义............................................................................................. 235

5.1.2 数据应用现状分析与标杆比较................................................................... 237

5.1.3 大数据应用架构规划和设计...................................................................... 238

5.1.4 大数据技术切入与实施.............................................................................. 239

5.1.5 大数据试用和评估..................................................................................... 240

5.1.6 大数据应用推广......................................................................................... 241

5.2 应用案例............................................................................................................... 241

5.2.1 亚马逊........................................................................................................ 241

5.2.2 雅虎............................................................................................................ 242

5.2.3 淘宝网........................................................................................................ 242

5.2.4 Facebook .................................................................................................... 243

5.3 以银行客户分析为例的实施案例分析............................................................. 244

5.3.1 银行基于大数据的客户分析的业务需求.................................................... 244

5.3.2 银行基于大数据的客户分析的现状与标杆比较......................................... 245

5.3.3 银行基于大数据的客户分析的应用架构规划与设计................................. 246

5.3.4 银行基于大数据的数据分析的实施、试点和推广..................................... 247

6 大数据应用的主流解决方案...................................................................... 248

6.1 产业链................................................................................................................... 248

6.1.1 国际上的大数据生态环境.......................................................................... 248

6.1.2 国内产业链主要力量................................................................................. 251

6.2 主流厂商解决方案.............................................................................................. 252

6.2.1 Cloundera ................................................................................................... 252

6.2.2 Hortonworks ............................................................................................... 254

6.2.3 MapR.......................................................................................................... 254

6.2.4 IBM ............................................................................................................ 255

6.2.5 Oracle ......................................................................................................... 257

6.2.6 EMC ........................................................................................................... 258

6.2.7 Intel ............................................................................................................ 259

6.2.8 SAP ............................................................................................................ 260

6.2.9 Teradata ...................................................................................................... 262

7 大数据应用的未来挑战和趋势........................................................................ 263

7.1 隐私保护............................................................................................................... 263

7.1.1 法律保护.................................................................................................... 264

7.1.2 技术保护.................................................................................................... 266

7.1.3 理念革新.................................................................................................... 267

7.2 技术标准............................................................................................................... 268

7.2.1 ISO 标准化进展......................................................................................... 268

7.2.2 评价基准和基准测试................................................................................. 269

7.2.3 标准套件.................................................................................................... 273

7.3 大数据治理.......................................................................................................... 273

7.3.1 数据治理框架............................................................................................. 274

7.3.2 数据质量管理............................................................................................. 274

7.3.3 大数据的组织、角色和责任...................................................................... 276

7.4 适应商业社会的未来趋势.................................................................................. 277

7.4.1 从产品推销向数据营销的转变................................................................... 277

7.4.2 从流程驱动到分析驱动的转变................................................................... 277

7.4.3 从私有资源到公共服务的转变................................................................... 278

精彩节摘

3.4.3 大数据挖掘与高级分析

数据挖掘是从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取出模式、关联、变化、异常和有意义的结构。数据挖掘主要价值在于利用数据挖掘技术能发现规律并改善预测模型。

数据挖掘技术可以分为描述性技术和预测性技术,描述性技术了解数据中潜在的规律,预测性技术是用历史预测未来的技术。

数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有:关联分析、基于决策树或神经网络的分类分析、聚类分析、序列分析等,如图3-50所示是其中一些应用示例。下面分别介绍几种常见的数据挖掘类型。

1. 关联(Association)分析

关联规则描述了一组数据项之间的关系。关联分析是在交易数据、关系数据或其他信息载体中,发现存在于项目集或对象集之间的关联规则,包括关联、相关性、因果结构或频繁出现的模式。在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。关联分析广泛用于购物篮分析、交叉销售、商品目录设计等商业决策领域。沃尔玛就使用关联规则发现了哪些人同时购买了纸尿片和啤酒。例如,下面是在购物篮分析中的关联规则例子。

问题是:“什么商品组合,顾客可能会在一次购物中同时购买?”

购物篮分析:设全域为出售商店的集合(即项目全集),一次购物购买(即事务)的商品为项目全集的子集,若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。

购买纸尿布与购买啤酒的关联规则可表示为:

diaper→beer [support=2%,confidence=60%]

 

support为支持度,confidence为置信度。

该规则表示:在所分析的全部事务中,有2%的事务同时购买纸尿布和啤酒;在购买纸尿布的顾客中60%也购买啤酒。

常用的关联分析算法有Apriori算法及它的各种改进或扩展算法。Apriori算法是一种挖掘布尔关联规则频繁项集的算法。算法的核心思想是基于频集理论的一种递推方法,目的是从数据库中挖掘出那些支持度和信任度都不低于给定的最小支持度阈值和最小信任度阈值的关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。对于大规模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如Count分布算法、Data分布算法、Candidate分布算法、智能Data分布算法(IDD)和DMA分布算法等。

2. 分类(Classification)分析

所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。类的描述可以是显式的,如用一组特征概念描述;也可以是隐式的,如用一个数学公式或数学模型描述。

分类是事先定义好类别,属于有指导学习范畴。分类的目的是学会一个分类模型(称为分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由特征值组成的特征向量。此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:

v1,v2,...,vn; c);其中vi表示特征值,c表示类别。

常用分类算法有决策树、神经网络(NN)、贝叶斯分类(Bayes)等。决策树是一个树结构,它用样本的属性作为节点,用属性的取值作为分支。决策树的根节点是所有样本信息中信息量最大的属性,中间节点是以该节点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶节点是样本的类别值。决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递推方式,在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。所以,从根节点到叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。著名的决策树算法有ID3和改进的C4.5。如图3-51所示为一个决策树的例子。

神经网络(NN)算法是反映人脑结构及功能的一种数学模型,它是由大量的简单处理单元经广泛并行互联形成的一种网络系统,用以模拟人类进行知识的表示与存储以及利用知识进行推理的行为。它是对人脑系统的简化、抽象和模拟,具有人脑功能的许多特征。如图3-52所示为基于知识的神经网络的信息流程。

分类适合类别或分类体系已经确定的场合,目前分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等领域。

3. 聚类分析(Clustering

聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的数据相差较大。好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。

常用算法有K均值、最近邻、神经网络等。K均值算法把n个对象根据它们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。

聚类分析用于很多领域,如对购物篮分析中,可用聚类分析基于其他人的兴趣来预测这个顾客的兴趣。

4. 序列(Sequence)分析

序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。例如,它可以导出,“在两年前购买了福特轿车的顾客,有70%可能在今年采取以旧换新的购车行动”,“在购买了自行车和购物篮的所有客户中,有80%的客户会在两个月后购买打气筒”等。

5. 偏差检测(Deviation Detection)分析

用于检测并解释数据分类的偏差,即数据集中间显著不同于其他数据的对象。它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。偏差包括很多有用的知识,如分类中的反常实例,模式的例外,观察结果对模型预测的偏差,量值随时间的变化等。偏差检测的基本方法是寻找观察结果与参照之间的差别,观察结果常常是某一个域的值或多个域值的汇总,参照是给定模型的预测、外界提供的标准或另一个观察。常用算法有决策树、神经网络、异常因子LOF检测等。常用应用有及时发现有欺诈嫌疑的异常行为等。

6. 预测模型(Predictive Modeling)分析

所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:回归分析、线性模型、支持矢量机、关联规则、决策树预测、遗传算法、神经网络等。后续章节将重点阐述预测分析。

7. 模式相似性挖掘

用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象,或找出所有元素对中两者的距离小于用户定义的距离范围的元素对。模式相似性挖掘的方法有相似度测量法、遗传算法等。

作者简介

赵刚,博士。北京赛智时代信息技术咨询有限公司(CIOManage)创始人。历任国内著名信息化咨询公司赛迪顾问股份有限公司高级副总裁、首席信息化咨询顾问,国内计算机系统集成一级资质企业北京赛迪时代信息产业股份有限公司总经理、首席架构师,2012年获得中国电子信息产业发展研究院十大赛迪学者称号,兼任中国信息化推进联盟专家、中国电子学会高级会员。

2年,主持和参与过的信息化咨询和集成项目有:国家新一代信息技术应用战略研究、亚太地区智慧城市指标体系研究、中国-欧盟信息社会研究、天津市智慧城市规划、国土资源部分布式国土资源信息共享服务平台、国家图书馆文津馆智能搜索集群平台、公安部虚拟化数据平台、中海油企业级数据中心和灾备中心规划、国药集团私有云计算平台规划、北京市物联网应用示范项目初步设计、鄂尔多斯市人口基础数据库建设等。

在信息化领域耕耘10余年,服务的政府、企业客户超过100家,发表文章若干篇,著有专著《IT管理体系-战略、管理和服务》,参与编写《智慧城市:规划、建设和评估》、《信息化基本知识》、《信息系统审计》等。

媒体评论

本书可以为一切想了解大数据技术应用、建设大数据企业级应用架构、享受大数据分析之美的读者提供一把开启大数据世界的钥匙,即使是对大数据有所研究的人士,本书系统性的视角也可以使他们了解全局、开阔思路,本书具有很高的参考价值。

中国工程院院士  倪光南

 

当今大数据的应用将是企业在主数据管理和商业智能基础上一个重要应用发展方向。赵博士这本书从大数据的概念、应用需求、技术架构、应用集成和方法论等方面系统阐述大数据应用,为企业大数据技术和应用实践提供指导。这本书不是大数据理念的书,也不是纯粹的HADOOP技术开发的书,而主要着眼大数据的技术架构和应用需求,为企业大数据的应用人员提供一个实践性的指南。

云计算领域权威专家、中国医药集团总公司信息化专家组组长、信息部主任  雷万云

 

大数据已经慢慢从一个Buzz Word变成一个时代的化身,潜移默化地深入每个人的生活,在大数据时代我们也该静下心来想想真正的大数据是什么?大数据改变了些什么?大数据不仅仅是一个技术问题,追根究底其实是一个商业问题,怎么让大数据产生价值,我们需要一个创新的想法,而技术是实现价值的一种手段。这本书从不同行业的业务需求入手,涵盖了很多具体的大数据场景用例,也深入浅出地涉及了大数据相关的技术及其架构,同时从企业角度给出了可参考的解决方案,是一本很好的大数据应用实践指南。

IBM中国开发中心首席技术官兼新技术研发中心总经理  毛新生

 

这本书太及时了!它回答了这样一个务实的问题:在大数据术语满天飞的时代,究竟应该怎么做?怎么做,并非简单地用某种新工具、新理念来指导实践,而是通过贯通理论与实践、案例与方法,构建和充实大数据这个方兴未艾的新疆域。

财讯传媒集团(SEEC)首席战略官、ZiffDavis媒体集团(中国)战略发展研究主任

段永朝

 

本书以系统的视角,从概念背景到整合策略再到应用实例,解析了大数据的相关技术和基本应用路径,对处于摸索道路上的大数据研发人员与应用人员,实现从大数据蓝图到大数据实践的迈进,以及充分挖掘和利用大数据中的价值,将带来有用的启迪和帮助。

赛迪智库软件与信息服务业研究所所长  安晖

前言

随着互联网、移动互联网、社交网络、物联网、云计算等新一代信息技术的应用和推广,人类产生的数据成倍增长,数据种类繁多,数据在宽带网络中高速流动,数据的待开发价值越来越大,我们已经进入了大数据时代!短短两三年,大数据的理念已经深入人心,大数据的技术也层出不穷,但大数据技术的应用才刚刚开始。本书把阐述的视角放在了大数据的技术应用上,通过分析大数据应用的关键成功因素,希望为政府、行业和企业的大数据技术开发和应用人员提供一本框架性和系统性的技术与应用实践指南。

全书共分为7 章。

1 章是大数据的概念和发展背景,回顾大数据理念和技术的发展历程,梳理大数据发展脉络,并从大数据的体量、数据类型、速度和潜在价值等4 个特征定义大数据。

大数据的技术应用是为了实现业务的价值,所以第2 章分析大数据应用的业务需求,梳理企业级大数据应用的业务流程,剖析大数据应用对于组织的业务价值,并深入分析互联网、零售、金融、电信、能源等9 个行业的大数据应用需求,总结企业级大数据应用的客户分析、绩效分析和风险分析等共性需求。

3 章阐述大数据应用的总体架构和关键技术。总体架构分析基于Apache 开源的大数据平台总体架构参考模型,涵盖了大数据处理、大数据存储、大数据访问、大数据调度、大数据分析展现、大数据与传统数据库连接、大数据管理、安全和备份恢复框架等技术,它能够为企业建设大数据应用平台提供框架参考。基于这一架构,本章进一步详细介绍了大数据存储和处理、大数据查询分析、大数据高级分析和可视化等3 个方面的关键技术。Hadoop 是大数据技术的内核,本章详细介绍了Hadoop 三大核心技术,即分布式文件系统HDFS、分布式计算框架MapReduce、分布式数据库HBase 的技术原理、技术构成和应用示例,也介绍了Hadoop 之外的内存计算、流计算等框架。大数据查询和分析技术介绍了SQL on Hadoop 技术,包括HiveImpala 等技术。大数据高级分析和可视化技术也是大数据的关键技术,本章总体阐述了大数据挖掘与高级分析的算法和技术,对非结构化复杂数据分析、预测分析和开源的R 语言进行了重点介绍,并介绍了大数据可视化的一些工具。

4 章阐述大数据技术应用与企业级应用系统的整合策略。现有企业级数据分析是以关系型数据库为基础的,建立了涵盖网络、存储、服务器、虚拟化、云计算和信息安全等方面的企业IT 架构,大数据技术的企业级应用需要实现与这些技术的高效整合,构建新一代的企业级应用架构。本章分别介绍了大数据传输、集成和流程化管理,大数据与存储架构的整合,大数据对网络架构的发展,大数据与虚拟化技术的整合,云计算平台上的大数据云,以及大数据与信息安全等6 个方面的内容。

5 章介绍了大数据企业级应用的实践方法论和应用案例。大数据应用的实践方法论阐述了业务需求定义、现状分析、架构规划和设计、技术切入与实施,以及试用、评估和推广等大数据应用的开发流程。对亚马逊、雅虎、淘宝等互联网企业应用案例的分析,则试图给大数据技术应用实践提供技术细节和实施规模的参考。

6 章介绍了大数据应用的主流商业解决方案,首先介绍大数据产业链上的主要厂商,并进一步介绍了9 家主流厂商的解决方案。

7 章是对大数据应用中未来挑战和发展趋势的分析。主要讨论了隐私保护、技术标准、大数据治理等应用发展中的关键挑战和应对策略,最后预测了大数据应用下商业生活的发展趋势。

全书以某商业银行基于大数据的客户分析为案例,便于读者根据案例所阐述的应用场景,结合自身需求学习和掌握大数据技术的应用。

本书的写作最大程度地得益于从事大数据技术研发、应用和研究的社区、业界同仁和爱好者。作者起的作用仅仅是穿针引线,将大数据技术应用开拓者们分享的研究和应用心得总结起来,希望有助于更多技术研发、应用人员和爱好者系统地学习和应用大数据,本书也提供了这些成果的链接,读者可以更加深入地去学习和研究。当然,本书基于作者在信息化领域多年的研究、咨询和系统集成的实践经验,也基于作者所创立的北京赛智时代信息技术咨询有限公司(www.CIOManage.com)在大数据领域的研究成果。本书引用了CIOManage(赛智时代)的《2013 年中国大数据应用价值研究报告》的很多研究成果。感谢所有为大数据技术应用而努力的同仁们!

本书付梓之际,作者诚惶诚恐,大数据技术远未成熟,大数据技术应用也刚刚拉开帷幕,这样一本技术应用实践指南一定存在诸多问题。但技术应用本来就是一个不断改进和优化的过程,希望我和读者在共同学习和应用的过程,逐步总结出更为精确和实用的经验。欢迎读者与我交流,联系信息如下。

微博:http://weibo.com/blogbot

博士博客:http://blog.sina.com.cn/blogbot

邮箱:blogbot@sina.com

赵刚

2013 7 29 日于北京嘉铭园

 

  • 大小: 461.8 KB
分享到:
评论

相关推荐

    中国工程院院士、中国开放指令生态(RISC-V)联盟理事长倪光南谈 未来RISC-V有望成为世界主流CPU之一.pdf

    【未来的CPU市场格局】倪光南院士的观点认为,RISC-V有潜力成为世界主流CPU之一,与Intel的X86和Arm三足鼎立。在X86主导的服务器领域,RISC-V有机会凭借其低功耗和开放性特点取得一席之地。而在移动领域,尽管Arm的...

    倪光南院士:5G对生活、经济都会有重大变革.rar

    倪光南院士是中国知名的计算机科学家,他在信息技术领域的权威性使得这一报告的分析和观点具有较高的可信度。这份报告被标记为“行业报告”,意味着它可能是对5G技术在行业内应用的深度研究,涵盖了技术发展、市场...

    倪光南:网络安全防护需多层次多维度进行.pdf

    总的来说,倪光南院士的论述涵盖了网络安全的多维度性、云计算与云安全的发展同步、云安全法规与标准的建立、国内外云安全的比较、云安全技术的选择与应用等多个方面,为网络安全防护提供了专业的指导和深刻的见解。...

    发展嵌入式系统-倪光南院士

    倪光南院士关于嵌入式系统的讲座报告。非常精辟。

    乌镇互联网大会系列——倪光南院士:5G对生活、经济都会有重大变革.pdf

    乌镇互联网大会系列——倪光南院士:5G对生活、经济都会有重大变革.pdf

    云计算专家倪光南院士特聘成为中服软件首席科学家

    近日,云计算专家倪光南院士特聘为中服软件首席科学家,为中服云计算平台和SaaS应用服务研究提供专业咨询和指导,这也是中服软件引进高层次顶尖专家方面的一重大举措。

    倪光南:自主可控方得网络安全.pdf

    但是,根据文件信息中给出的标题“倪光南:自主可控方得网络安全.pdf”以及描述和标签“网络安全 网络技术 计算机网络 参考文献 专业指导”,我们可以推测这篇文章可能涉及的关键知识点如下: 1. 网络安全的重要性...

    CServer PaaS技术及其应用

    公司通过与国内众多高等教育机构合作,如西安交通大学、西北工业大学等,形成了产学研结合的技术创新体系,同时也聘请了倪光南院士担任公司首席科学家,提供了强大的技术支持。 在云计算的范畴内,PaaS、SaaS以及...

    蓝桥杯成为教育部白名单重要赛事

    同时,中国工程院院士倪光南先生担任蓝桥杯大赛首席专家及蓝桥学院院长,使得赛事能够始终保持高水准以及专业度,更加贴合青少年的编程学习特点! 正因蓝桥杯优秀的历史背景,此次被选为白名单赛事是意料之中!成为...

    windows内核情景分析上_1

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_6

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_14

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_12

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_3

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_5

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_10

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_2

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_11

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_9

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

    windows内核情景分析上_4

    历时3年,近1500页篇幅,毛德操老师重磅著作! 市面上唯一一本讲述Windows内核源代码分析的图书!具有高度应用价值与实用价值!...中国开源软件推进联盟 陆首群、中国工程院院士 倪光南联手推荐! 高清扫描 共14个压缩包

Global site tag (gtag.js) - Google Analytics