`
阅读更多
《New Internet:大数据挖掘》
基本信息
作者: 谭磊 [作译者介绍]
出版社:电子工业出版社
ISBN:9787121196706
上架时间:2013-3-8
出版日期:2013 年3月
开本:16开
页码:376
版次:1-1
所属分类:计算机 > 数据库 > 数据库存储与管理
更多关于 》》》《New Internet:大数据挖掘
内容简介
计算机书籍
  《new internet:大数据挖掘》全面地介绍了如何使用数据挖掘技术从各种结构的(数据库)或非结构(web)的海量数据中提取和产生业务知识。作者梳理了各种数据挖掘常用算法和信息采集技术,系统地描述了实际应用时如何在互联网日志分析、电子邮件营销、互联网广告和电子商务上进行数据挖掘,着重介绍了数据挖掘的原理和算法在互联网海量数据挖掘中的应用。
   《new internet:大数据挖掘》主要特点:全面介绍了数据挖掘和大数据的基本概念和技术;大量采用了实际案例,实用性强;详细介绍了大数据挖掘领域最新的商业应用。
   《new internet:大数据挖掘》是从事数据挖掘研究和开发,或者是互联网相关行业从事数据运营的专业人员理想的参考书,同时也可作为了解数据挖掘应用的入门指南。
目录
《new internet:大数据挖掘》
第1章 绪论——从淘金客到矿山主 1
1.1 大数据时代的“四v” 2
1.2 什么是大数据挖掘 5
1.2.1 从数据分析到数据挖掘 6
1.2.2 web挖掘 9
1.2.3 大数据挖掘之“大” 10
1.3 大数据挖掘的国内外发展 12
1.3.1 数据挖掘的应用发展 12
1.3.2 数据挖掘研究发展 17
1.4 本书内容 19
第2章 一小时了解数据挖掘 23
2.1 数据挖掘是如何解决问题的 23
2.1.1 尿不湿和啤酒 23
2.1.2 target和怀孕预测指数 24
2.1.3 电子商务网站流量分析 25
2.2 分类:从人脸识别系统说起 27
2.2.1 分类算法的应用 29
2.2.2 数据挖掘分类技术 33
2.2.3 分类算法的评估 37
.2.3 一切为了商业 40
2.3.1 什么是商业智能(business intelligence) 40
2.3.2 数据挖掘的九大定律 43
2.4 数据挖掘很纠结 44
2.5 数据挖掘的基本流程 45
2.5.1 数据挖掘的一般步骤 45
2.5.2 几个数据挖掘中常用的概念 47
2.5.3 crisp-dm 51
2.5.4 数据挖掘的评估 53
2.5.5 数据挖掘结果的知识表示 55
2.6 本章相关资源 59
第3章 数据仓库——数据挖掘的基石 60
3.1 存放数据的仓库 60
3.1.1 数据仓库的定义 61
3.1.2 数据仓库和数据库 63
3.2 传统的数据仓库介绍 64
3.3 数据仓库基本结构 67
3.4 olap联机分析处理 69
3.5 云存储上的数据仓库 71
3.5.1 google公司的云架构 71
3.5.2 开源的分布式系统hadoop 77
3.5.3 facebook的数据仓库 85
3.5.4 nosql 86
3.6 本章相关资源 89
第4章 数据挖掘算法及原理 91
4.1 数据挖掘中的算法 91
4.2 数据挖掘十大经典算法 92
4.3 分类算法(classification) 96
4.4 聚类算法(clustering) 99
4.5 关联算法 102
4.5.1 关联算法中的概念 103
4.5.2 关联规则数据挖掘过程 105
4.5.3 关联规则的分类 106
4.5.4 apriori算法的执行实例 107
4.5.5 关联规则挖掘算法的研究与优化 108
4.6 序列挖掘(sequence mining) 113
4.7 数据挖掘建模语言pmml 115
4.8 本章相关资源 117
第5章 在进行数据挖掘之前 120
5.1 数据集成 121
5.2 为何要做数据预处理 122
5.3 数据预处理 124
5.3.1 数据清理 124
5.3.2 数据转换 129
5.3.3 数据规约 132
5.4 本章相关资源 134
第6章 r语言和其他数据挖掘工具 136
6.1 r语言的历史 136
6.1.1 r语言的特点 142
6.1.2 r语言和数据挖掘 149
6.2 其他数据挖掘工具 152
6.2.1 matlab 153
6.2.2 其他商用数据挖掘工具 155
6.2.3 开源数据挖掘工具weka 159
6.3 数据挖掘和云 160
6.4 本章相关资源 162
第7章 互联网上的日志分析 164
7.1 网站日志简介 165
7.2 网站日志处理 175
7.2.1 web日志预处理 175
7.2.2 web日志分析和数据挖掘 181
7.3 邮件日志 183
7.4 本章相关资源 184
第8章 数据挖掘和电子邮件 186
8.1 邮件营销与垃圾邮件过滤 186
8.2 数据挖掘和邮件营销 189
8.2.1 如何有效地进行邮件营销 189
8.2.2 邮件营销案例分享之一 195
8.2.3 邮件营销案例分享之二 200
8.2.4 运用数据挖掘rfm模型提高邮件营销
效果 203
8.3 数据挖掘和垃圾邮件过滤 208
8.3.1 垃圾邮件 209
8.3.2 垃圾邮件过滤技术 209
8.3.3 垃圾邮件过滤案例 215
8.4 本章相关资源 218
第9章 数据挖掘和互联网广告 219
9.1 互联网广告 219
9.2 广告行为 223
9.3 网站联盟广告 225
9.4 网站联盟广告上的数据挖掘 226
9.4.1 数据助力网盟广告 227
9.4.2 如何应对网盟广告 236
9.5 本章相关资源 241
第10章 数据挖掘和电子商务 242
10.1 中国电子商务现状 242
10.2 在互联网上卖米 248
10.3 用数据来掌握客户 250
10.3.1 客户何时来,从哪来 253
10.3.2 客户最喜欢哪种商品 257
10.3.3 竞争与反竞争分析 260
10.3.4 客户还会买什么 261
10.3.5 哪些客户是我们需要的 264
10.4 电子商务案例 265
10.4.1 电子商务企业案例一 266
10.4.2 电子商务企业案例二 279
10.5 本章相关资源 286
第11章 数据挖掘和web挖掘 288
11.1 互联网上的个性化–like 289
11.1.1 like=像 289
11.1.2 like=喜欢 290
11.2 web挖掘和sns 295
11.2.1 sns上的数据价值 295
11.2.2 sns上的数据关联关系 297
11.2.3 sns上的用户关系 299
11.3 数据挖掘和隐私 302
11.4 本章相关资源 307
第12章 数据挖掘和移动互联网 308
12.1 移动互联网的特殊性 308
12.1.1 锁定用户的数据价值 309
12.1.2 移动互联网上数据的形式 310
12.1.3 移动互联网地理位置信息的价值 312
12.2 数据挖掘和lbs 314
12.2.1 用pu学习算法做文本挖掘 315
12.2.2 用相似匹配算法做地点挖掘 318
12.3 移动互联网数据面临的问题 320
12.4 本章相关资源 322
附录a 技术词汇表 323
附录b 英语参考文献表 335
附录c 中文参考文献表 347
附录d 微博 350
附录e 博客和其他网址 351
 
图书信息来源:中国互动出版网
0
0
分享到:
评论

相关推荐

    《New Internet 大数据挖掘》读书笔记

    自己在看《New Internet 大数据挖掘》这本书时做的一些笔记,与大家分享!

    《NEW INTERNET 大数据挖掘》(谭磊)【电子工业出版社】

    想真正了解何为数据?想知道如何对数据进行采集、分析、挖掘与应用?请阅读此书。

    《海量数据挖掘》第二版英文版(pdf+epub)

    The popularity of the Web and Internet commerce provides many extremely large datasets from which information can be gleaned by data mining. This book focuses on practical algorithms that have been ...

    xss利用于挖掘

    - Internet Explorer:`new ActiveXObject("Microsoft.XMLHTTP")` 或 `new ActiveXObject("MSXML2.XMLHTTP")` - 其他现代浏览器:`new XMLHttpRequest()` - **发送HTTP请求**:使用`open()`方法初始化请求类型...

    基于无线传感器网络技术的粮食存储环境监测系统11new.doc

    5. 数据聚集和分析:是一种基于数据挖掘和Machine Learning算法的技术,旨在对大量数据进行处理和分析。 本篇文章介绍了一种基于无线传感器网络技术的粮食存储环境监测系统,旨在解决我国粮食存储领域的实际问题,...

    Standing

    在字体设计中,通常会区分几种基本类型,如衬线字体(如Times New Roman)、无衬线字体(如Arial)、手写体和装饰性字体。"Standing"可能属于这些分类中的某一种,具有其独特的设计风格。例如,如果它是一款无衬线...

    Managing Gigabytes: Compressing and Indexing Documents and Images

    * New information on the Internet and WWW, digital libraries, web search engines, and agent-based retrieval * Accompanied by a public domain system called MG which is a fully worked-out operational ...

    2021年计算机等级考试考试考前冲刺卷.docx

    7. 决策支持系统技术:数据仓库、联机分析处理(OLAP)和数据挖掘是构建新一代决策支持系统的核心技术,选项C包含了所有这些技术。 8. Java数组声明:`String[]s=new String[10][];`这个语句定义了一个字符串数组的...

    Heritrix网络爬虫

    Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...

    python中cPAMIE类包

    PAMIE是一个用Python编写的库,允许开发者通过Python脚本控制Internet Explorer浏览器,进行网页交互、元素定位、数据提取等一系列功能。cPAMIE是对PAMIE的进一步优化和简化,使其更易于在Python环境中使用。 ...

    因特网上的竞争情报

    其次,文档可能涉及了数据挖掘和分析技术。在海量信息中,如何提取有价值的数据并进行有效的分析,是竞争情报的关键。这可能涉及到网络爬虫技术、文本挖掘、大数据分析等工具和技术,以帮助我们从大量非结构化数据中...

    英文文献翻译复习指南.zip

    最后,A Survey of Data Mining and Machine Learning Methids for Cyber Security Intrusion Detection.pdf综述了数据挖掘和机器学习在网络安全入侵检测中的应用,强调了这些先进技术在应对日益复杂网络威胁中的...

    很好的heritrix学习资料

    这款工具由互联网档案馆(Internet Archive)开发,旨在提供灵活、可扩展的网页抓取框架,适用于学术研究、数据挖掘和历史记录保存等多种用途。标题和描述都表明这是一份关于Heritrix学习的宝贵资料集合,包含了一...

    Windows 操作系统原理

    5. **文件系统**:Windows使用NTFS(New Technology File System)或FAT(File Allocation Table)作为其主要文件系统。NTFS提供了更高的安全性、稳定性和性能,支持文件权限、事务处理和磁盘配额等功能。 6. **...

    视译练习一 材料.docx

    “互联”这个标签通常指的是互联网(Internet),这是一个全球性的网络系统,连接了全世界的计算机,使得信息交换、数据传输、远程访问和资源共享成为可能。互联网的发展极大地推动了全球化,改变了人们的生活方式、...

    基于LDA模型的微博帖子主题漂移检测

    10. 互联网新媒体(Internet New Media):指的是利用网络技术作为传播媒介的新媒体形式,它让用户不再是单向接受信息的受众,而是可以参与到内容的编辑和创造中。随着用户生成内容的爆炸性增长,互联网新媒体为信息...

    基于协同过滤的推荐算法研究.caj

    两者最重要的区别在于用户通过搜索引擎获取的信息的质量的好坏在很大程度上依赖于用户对于信息求描述的准确程度,而推荐系统不需要用户提供明确的需求,而是从用户的历史行为和数据中出发,建立相关的模型从而挖掘出...

Global site tag (gtag.js) - Google Analytics