- 浏览: 584971 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
小网客:
噱头 没实际意义
【互动出版网】11.11购物狂欢节重磅大促,免费领万千优惠券 -
tongchuang123:
这是要出书了吗:o
微信控 控微信 -
韶华无限:
这也可以出本书……
玩转微信(彩印) -
zhukewen_java:
无语了。。。哪天出本《玩转QQ》?
玩转微信(彩印) -
yaying:
我只见过MySQL Cookbook中文版
jQuery Cookbook中文版
《大数据:互联网大规模数据挖掘与分布式处理》
基本信息
原书名:Mining of Massive Datasets
作者: (美)拉贾拉曼(Rajaraman,A.) (美)厄尔曼(Ullman,J.D.) [作译者介绍]
译者: 王斌
丛书名: 图灵程序设计丛书
出版社:人民邮电出版社
ISBN:9787115291318
上架时间:2012-9-23
出版日期:2012 年9月
开本:16开
页码:1
版次:1-1
所属分类: 计算机
内容简介
更多关于 》》》《大数据:互联网大规模数据挖掘与分布式处理》
书籍
计算机书籍
《大数据:互联网大规模数据挖掘与分布式处理》由斯坦福大学的“web 挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。
《大数据:互联网大规模数据挖掘与分布式处理》适合本科生、研究生及对数据挖掘感兴趣的读者阅读。
目录
《大数据:互联网大规模数据挖掘与分布式处理》
第1章 数据挖掘基本概念 1
1.1 数据挖掘的定义 1
1.1.1 统计建模 1
1.1.2 机器学习 1
1.1.3 建模的计算方法 2
1.1.4 数据汇总 2
1.1.5 特征抽取 3
1.2 数据挖掘的统计限制 4
1.2.1 整体情报预警 4
1.2.2 邦弗朗尼原理 4
1.2.3 邦弗朗尼原理的一个例子 5
1.2.4 习题 6
1.3 相关知识 6
1.3.1 词语在文档中的重要性 6
1.3.2 哈希函数 7
1.3.3 索引 8
1.3.4 二级存储器 10
1.3.5 自然对数的底e 10
1.3.6 幂定律 11
1.3.7 习题 12
1.4 本书概要 13
1.5 小结 14
1.6 参考文献 14
第2章 大规模文件系统及map-reduce 16
2.1 分布式文件系统 16
2.1.1 计算节点的物理结构 17
2.1.2 大规模文件系统的结构 18
2.2 map-reduce 18
2.2.1 map任务 19
2.2.2 分组和聚合 20
2.2.3 reduce任务 20
2.2.4 组合器 21
2.2.5 map-reduce的执行细节 21
2.2.6 节点失效的处理 22
2.3 使用map-reduce的算法 22
2.3.1 基于map-reduce的矩阵—向量乘法实现 23
2.3.2 向量v无法放入内存时的处理 23
2.3.3 关系代数运算 24
2.3.4 基于map-reduce的选择运算 26
2.3.5 基于map-reduce的投影运算 26
2.3.6 基于map-reduce的并、交和差运算 27
2.3.7 基于map-reduce的自然连接运算 27
2.3.8 一般性的连接算法 28
2.3.9 基于map-reduce的分组和聚合运算 28
2.3.10 矩阵乘法 29
2.3.11 基于单步map-reduce的矩阵乘法 29
2.3.12 习题 30
2.4 map-reduce的扩展 31
2.4.1 工作流系统 31
2.4.2 map-reduce的递归扩展版本 32
2.4.3 pregel系统 34
2.4.4 习题 35
2.5 集群计算算法的效率问题 35
2.5.1 集群计算的通信开销模型 35
2.5.2 实耗通信开销 36
2.5.3 多路连接 37
2.5.4 习题 40
2.6 小结 40
2.7 参考文献 42
……
第6章 频繁项集 146
6.1 购物篮模型 146
6.1.1 频繁项集的定义 146
6.1.2 频繁项集的应用 148
6.1.3 关联规则 149
6.1.4 高可信度关联规则的发现 150
6.1.5 习题 151
6.2 购物篮及a-priori算法 152
6.2.1 购物篮数据的表示 152
6.2.2 项集计数中的内存使用 153
6.2.3 项集的单调性 154
6.2.4 二元组计数 155
6.2.5 a-priori算法 155
6.2.6 所有频繁项集上的a-priori算法 157
6.2.7 习题 158
6.3 更大数据集在内存中的处理 159
6.3.1 pcy算法 160
6.3.2 多阶段算法 161
6.3.3 多哈希算法 163
6.3.4 习题 164
6.4 有限扫描算法 166
6.4.1 简单的随机化算法 166
6.4.2 抽样算法中的错误规避 167
6.4.3 son算法 168
6.4.4 son算法和map-reduce 168
6.4.5 toivonen算法 169
6.4.6 toivonen算法的有效性分析 170
6.4.7 习题 170
6.5 流中的频繁项计数 171
6.5.1 流的抽样方法 171
6.5.2 衰减窗口中的频繁项集 172
6.5.3 混合方法 172
6.5.4 习题 173
6.6 小结 173
6.7 参考文献 175
第7章 聚类 176
7.1 聚类技术介绍 176
7.1.1 点、空间和距离 176
7.1.2 聚类策略 177
7.1.3 维数灾难 178
7.1.4 习题 179
7.2 层次聚类 179
7.2.1 欧氏空间下的层次聚类 180
7.2.2 层次聚类算法的效率 183
7.2.3 控制层次聚类的其他规则 183
7.2.4 非欧空间下的层次聚类 185
7.2.5 习题 186
7.3 k-均值算法 187
7.3.1 k-均值算法基本知识 187
7.3.2 k-均值算法的簇初始化 187
7.3.3 选择k的正确值 188
7.3.4 bfr算法 189
7.3.5 bfr算法中的数据处理 191
7.3.6 习题 192
7.4 cure算法 193
7.4.1 cure算法的初始化 194
7.4.2 cure算法的完成 195
7.4.3 习题 195
7.5 非欧空间下的聚类 196
7.5.1 grgpf算法中的簇表示 196
7.5.2 簇表示树的初始化 196
7.5.3 grgpf算法中的点加入 197
7.5.4 簇的分裂及合并 198
7.5.5 习题 199
7.6 流聚类及并行化 199
7.6.1 流计算模型 199
7.6.2 一个流聚类算法 200
7.6.3 桶的初始化 200
7.6.4 桶合并 200
7.6.5 查询应答 202
7.6.6 并行环境下的聚类 202
7.6.7 习题 203
7.7 小结 203
7.8 参考文献 205
第8章 web广告 207
8.1 在线广告相关问题 207
8.1.1 广告机会 207
8.1.2 直投广告 208
8.1.3 展示广告的相关问题 208
8.2 在线算法 209
8.2.1 在线和离线算法 209
8.2.2 贪心算法 210
8.2.3 竞争率 211
8.2.4 习题 211
8.3 广告匹配问题 212
8.3.1 匹配及完美匹配 212
8.3.2 最大匹配贪心算法 213
8.3.3 贪心匹配算法的竞争率 213
8.3.4 习题 214
8.4 adwords问题 214
8.4.1 搜索广告的历史 215
8.4.2 adwords问题的定义 215
8.4.3 adwords问题的贪心方法 216
8.4.4 balance算法 217
8.4.5 balance算法竞争率的一个下界 217
8.4.6 多投标者的balance算法 219
8.4.7 一般性的balance算法 220
8.4.8 adwords问题的最后论述 221
8.4.9 习题 221
8.5 adwords的实现 221
8.5.1 投标和搜索查询的匹配 222
8.5.2 更复杂的匹配问题 222
8.5.3 文档和投标之间的匹配算法 223
8.6 小结 224
8.7 参考文献 226
第9章 推荐系统 227
9.1 一个推荐系统的模型 227
9.1.1 效用矩阵 227
9.1.2 长尾现象 228
9.1.3 推荐系统的应用 230
9.1.4 效用矩阵的填充 230
9.2 基于内容的推荐 231
9.2.1 项模型 231
9.2.2 文档的特征发现 231
9.2.3 基于tag的项特征获取 232
9.2.4 项模型的表示 233
9.2.5 用户模型 234
9.2.6 基于内容的项推荐 235
9.2.7 分类算法 235
9.2.8 习题 237
9.3 协同过滤 238
9.3.1 相似度计算 238
9.3.2 相似度对偶性 241
9.3.3 用户聚类和项聚类 242
9.3.4 习题 243
9.4 降维处理 243
9.4.1 uv分解 244
9.4.2 rmse 244
9.4.3 uv分解的增量式计算 245
9.4.4 对任一元素的优化 247
9.4.5 一个完整uv分解算法的构建 248
9.4.6 习题 250
9.5 netflix竞赛 250
9.6 小结 251
9.7 参考文献 253
索引 254
本图书信息来源于:中国互动出版网
发表评论
-
【互动出版网】2013双12全场科技类图书6.5折封顶
2013-12-12 16:30 1147【互动出版网】2013双12全场科技类图书6.5折封顶 ... -
C#编程兵书
2013-08-28 17:43 1208《C#编程兵书》 基本信息 作者: 张志强 胡君 丛书 ... -
C++编程兵书
2013-08-28 17:24 1222《C++编程兵书》 基本 ... -
HTML+CSS网站开发兵书
2013-08-28 17:04 1409《HTML+CSS网站开发兵书 ... -
Java编程兵书
2013-08-27 17:57 1230《Java编程兵书》 基本 ... -
网络运维与管理2013超值精华本
2013-08-27 17:44 1353《网络运维与管理2013超值精华本》 基本信息 作者: ... -
HTML5游戏开发进阶指南
2013-08-27 17:26 1329《HTML5游戏开发进阶指 ... -
ASP.NET MVC 4高级编程(第4版)
2013-08-26 17:58 1099《ASP.NET MVC 4高级编程(第4版)》 基本信息 ... -
嗨翻C语言
2013-08-26 17:40 1177《嗨翻C语言》 基本信息 作者: (美)David Gr ... -
C++ Primer中文版(第5版)
2013-08-26 17:20 1145《C++ Primer中文版(第5版) 》 基本信息 作 ... -
云计算原理与实践
2013-08-20 17:02 579《云计算原理与实践》 基本信息 作者: 游小明 罗光春 ... -
微信公众平台搭建与开发揭秘
2013-08-20 16:53 996《微信公众平台搭建与开发揭秘》 基本信息 作者: 易伟 ... -
精通iOS开发(第5版)
2013-08-20 16:25 1042《精通iOS开发(第5版)》 基本信息 原书名:Begi ... -
企业门户(Portal)项目实施方略与开发指南
2013-08-20 16:12 972《企业门户(Portal)项目实施方略与开发指南》 基本信 ... -
Java开发手册
2013-08-20 15:56 946《Java开发手册》 基本信息 作者: 桂颖 谷涛 出 ... -
Unity3D手机游戏开发
2013-08-08 17:33 1136《Unity3D手机游戏开发》 基本信息 作者: 金玺曾 ... -
矛与盾:黑客攻防命令大曝光
2013-08-08 16:30 776《矛与盾:黑客攻防命令大曝光》 基本信息 作者: awk ... -
视觉繁美:信息可视化方法与案例解析
2013-08-08 16:10 931《视觉繁美:信息可视 ... -
精益设计: 设计团队如何改善用户体验
2013-08-08 15:55 771《精益设计: 设计团队如何改善用户体验》 基本信息 原书 ... -
云计算与OpenStack(虚拟机Nova篇)
2013-08-08 15:19 950《云计算与OpenStack(虚拟机Nova篇)》 基本信 ...
相关推荐
[图灵系列图书]大数据:互联网大规模数据挖掘与分布式处理_s1401427914中文完整扫描版.rar-Anand Rajaraman著,王斌 译,人民邮电出版社2012.11出版[带完整书签],这是part2
《大数据:互联网大规模数据挖掘与分布式处理》这本书深入探讨了当今信息技术领域中备受关注的三大主题:大数据、数据挖掘和分布式处理。随着互联网的快速发展,数据的生成速度和规模已经超出了传统数据处理方法的...
[图灵系列图书]大数据:互联网大规模数据挖掘与分布式处理_s1401427914中文完整扫描版.rar-Anand Rajaraman著,王斌 译,人民邮电出版社2012.11出版[带完整书签],这是part1
综上所述,本文将围绕数据挖掘、大规模文件系统、MapReduce模型、相似项发现、实体关联及记录匹配等核心知识点,全面地介绍大数据在互联网应用中的大规模数据挖掘与分布式处理技术。这些技术共同构成了大数据处理的...
《大数据:互联网大规模数据挖掘与分布式处理》这本书深入探讨了当今信息技术领域中备受关注的热点话题,即如何在海量的数据中发现有价值的信息,并利用这些信息推动业务发展和科技进步。本书的核心内容围绕大数据的...
标题“大数据:互联网大规模数据挖掘与分布式处理”揭示了本文件将深入探讨大数据在互联网环境下的应用,特别是数据挖掘和分布式处理这两个关键领域。 数据挖掘是大数据的核心技术之一,它涉及到从海量数据中发现有...
大数据-互联网大规模数据挖掘与分布式处理]完整中文扫描版 好资源应当无条件共享
《大数据:互联网大规模数据挖掘与分布式处理》是一本深度探讨大数据技术的专业书籍,旨在解析如何在互联网时代有效地处理海量数据并从中提取有价值的信息。这本书的超清文字版提供了清晰易读的内容,便于读者深入...
《大数据:互联网大规模数据挖掘与分布式处理》迷你书是一本深入探讨大数据技术的著作,主要关注互联网环境下的数据处理挑战及解决方案。这本书的核心内容围绕大数据的特性、数据挖掘方法以及分布式处理技术展开,...
《大数据:互联网大规模数据挖掘与分布式处理》这本书由Anand Rajaraman、Jure Leskovec和Jeffrey D. Ullman合著,是斯坦福大学教学用书,涵盖数据挖掘和处理的多个高级话题,特别是那些适用于互联网上大规模数据集...
《大数据:互联网大规模数据挖掘与分布式处理》迷你书.part1
《大数据:互联网大规模数据挖掘与分布式处理》迷你书.part1
《大数据:互联网大规模数据挖掘与分布式处理》这本书深入探讨了大数据领域的核心概念和技术。大数据,顾名思义,指的是在传统数据处理手段无法有效管理的海量、高速度、多样性信息资产。这一领域的发展源于互联网的...
大数据-互联网大规模数据挖掘与分布式处理]完整中文扫描版 好资源应当无条件共享
大数据-互联网大规模数据挖掘与分布式处理.part2大数据-互联网大规模数据挖掘与分布式处理.part2大数据-互联网大规模数据挖掘与分布式处理.part2大数据-互联网大规模数据挖掘与分布式处理.part2
《大数据•互联网大规模数据挖掘与分布式处理》由拉贾拉曼Anand Rajarama、厄尔曼Jeffrey David Ullman所著,主要关注极大规模数据的挖掘。由于重点强调数据的规模,所以《大数据•互联网大规模数据挖掘与分布式处理...
大数据 互联网大规模数据挖掘与分布式处理