`
belldeep
  • 浏览: 40810 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Python数据挖掘入门与实践 中文目录

阅读更多
    Robert Layton 著 ,杜春晓 译
封面  1
扉页  2
版权  3
前言  6
目录  11
第1章    开始数据挖掘之旅  15
1.1 数据挖掘简介  15
1.2 使用Python和IPython Notebook  16
    1.2.1 安装Python  16
    1.2.2 安装IPython  18
    1.2.3 安装scikit-learn库  19
1.3 亲和性分析示例  19
    1.3.1 什么是亲和性分析  19
    1.3.2 商品推荐  20
    1.3.3 在NumPy中加载数据集  20
    1.3.4 实现简单的排序规则  22
    1.3.5 排序找出最佳规则  24
1.4 分类问题的简单示例  26
1.5 什么是分类  26
    1.5.1 准备数据集  27
    1.5.2 实现OneR算法  28
    1.5.3 测试算法  30
1.6 小结  32
第2章    用scikit-learn估计器分类  33
2.1 scikit-learn估计器  33
    2.1.1 近邻算法  34
    2.1.2 距离度量  34
    2.1.3 加载数据集  36
    2.1.4 努力实现流程标准化  38
    2.1.5 运行算法  38
    2.1.6 设置参数  39
2.2 流水线在预处理中的应用  41
    2.2.1 预处理示例  42
    2.2.2 标准预处理  42
    2.2.3 组装起来  43
2.3 流水线  43
2.4 小结  44
第3章    用决策树预测获胜球队  45
3.1 加载数据集  45
    3.1.1 采集数据  45
    3.1.2 用pandas加载数据集  46
    3.1.3 数据集清洗  47
    3.1.4 提取新特征  48
3.2 决策树  49
    3.2.1 决策树中的参数  50
    3.2.2 使用决策树  51
3.3 NBA比赛结果预测  51
    组装起来  52
3.4 随机森林  55
    3.4.1 决策树的集成效果如何  56
    3.4.2 随机森林算法的参数  56
    3.4.3 使用随机森林算法  57
    3.4.4 创建新特征  58
3.5 小结  59
第4章    用亲和性分析方法推荐电影  60
4.1 亲和性分析  60
    4.1.1 亲和性分析算法  61
    4.1.2 选择参数  61
4.2 电影推荐问题  62
    4.2.1 获取数据集  62
    4.2.2 用pandas加载数据  63
    4.2.3 稀疏数据格式  63
4.3 Apriori算法的实现  64
    4.3.1 Apriori算法  65
    4.3.2 实现  66
4.4 抽取关联规则  68
    评估  72
4.5 小结  74
第5章    用转换器抽取特征  76
5.1 特征抽取  76
    5.1.1 在模型中表示事实  76
    5.1.2 通用的特征创建模式  78
    5.1.3 创建好的特征  80
5.2 特征选择  81
    选择最佳特征  83
5.3 创建特征  85
    主成分分析  87
5.4 创建自己的转换器  89
    5.4.1 转换器API  90
    5.4.2 实现细节  90
    5.4.3 单元测试  91
    5.4.4 组装起来  93
5.5 小结  93
第6章    使用朴素贝叶斯进行社会媒体挖掘  94
6.1 消歧  94
    6.1.1 从社交网站下载数据  95
    6.1.2 加载数据集并对其分类  97
    6.1.3 Twitter数据集重建  101
6.2 文本转换器  104
    6.2.1 词袋  105
    6.2.2 N元语法  106
    6.2.3 其他特征  107
6.3 朴素贝叶斯  107
    6.3.1 贝叶斯定理  107
    6.3.2 朴素贝叶斯算法  108
    6.3.3 算法应用示例  109
6.4 应用  110
    6.4.1 抽取特征  111
    6.4.2 将字典转换为矩阵  112
    6.4.3 训练朴素贝叶斯分类器  112
    6.4.4 组装起来  112
    6.4.5 用F1值评估  113
    6.4.6 从模型中获取更多有用的特征  114
6.5 小结  116
第7章    用图挖掘找到感兴趣的人  118
7.1 加载数据集  118
    7.1.1 用现有模型进行分类  120
    7.1.2 获取Twitter好友信息  121
    7.1.3 构建网络  124
    7.1.4 创建图  126
    7.1.5 创建用户相似度图  128
7.2 寻找子图  131
    7.2.1 连通分支  131
    7.2.2 优化参数选取准则  133
7.3 小结  137
第8章    用神经网络破解验证码  138
8.1 人工神经网络  138
    神经网络简介  140
8.2 创建数据集  141
    8.2.1 绘制验证码  141
    8.2.2 将图像切分为单个的字母  143
    8.2.3 创建训练集  144
    8.2.4 根据抽取方法调整训练数据集  145
8.3 训练和分类  146
    8.3.1 反向传播算法  148
    8.3.2 预测单词  149
8.4 用词典提升正确率  152
    8.4.1 寻找最相似的单词  152
    8.4.2 组装起来  153
8.5 小结  154
第9章    作者归属问题  156
9.1 为作品找作者  156
    9.1.1 相关应用和使用场景  157
    9.1.2 作者归属  157
    9.1.3 获取数据  158
9.2 功能词  161
    9.2.1 统计功能词  162
    9.2.2 用功能词进行分类  163
9.3 支持向量机  164
    9.3.1 用SVM分类  165
    9.3.2 内核  165
9.4 字符N元语法  166
    抽取字符N元语法  166
9.5 使用安然公司数据集  167
    9.5.1 获取安然数据集  167
    9.5.2 创建数据集加载工具  168
    9.5.3 组装起来  172
    9.5.4 评估  172
9.6 小结  174
第10章    新闻语料分类  175
10.1 获取新闻文章  175
    10.1.1 使用Web API获取数据  176
    10.1.2 数据资源宝库reddit  178
    10.1.3 获取数据  179
10.2 从任意网站抽取文本  181
    10.2.1 寻找任意网站网页中的主要内容  181
    10.2.2 组装起来  182
10.3 新闻语料聚类  184
    10.3.1 k-means算法  185
    10.3.2 评估结果  187
    10.3.3 从簇中抽取主题信息  189
    10.3.4 用聚类算法做转换器  189
10.4 聚类融合  190
    10.4.1 证据累积  190
    10.4.2 工作原理  193
    10.4.3 实现  194
10.5 线上学习  195
    10.5.1 线上学习简介  195
    10.5.2 实现  196
10.6 小结  198
第11章    用深度学习方法为图像中的物体进行分类  199
11.1 物体分类  199
11.2 应用场景和目标  199
    使用场景  202
11.3 深度神经网络  203
    11.3.1 直观感受  203
    11.3.2 实现  203
    11.3.3 Theano简介  204
    11.3.4 Lasagne简介  205
    11.3.5 用nolearn实现神经网络  208
11.4 GPU优化  211
    11.4.1 什么时候使用GPU进行计算  212
    11.4.2 用GPU运行代码  212
11.5 环境搭建  213
11.6 应用  215
    11.6.1 获取数据  215
    11.6.2 创建神经网络  216
    11.6.3 组装起来  218
11.7 小结  219
第12章    大数据处理  220
12.1 大数据  220
12.2 大数据应用场景和目标  221
12.3 MapReduce  222
    12.3.1 直观理解  223
    12.3.2 单词统计示例  224
    12.3.3 Hadoop MapReduce  226
12.4 应用  226
    12.4.1 获取数据  227
    12.4.2 朴素贝叶斯预测  229
12.5 小结  240
----
附录    接下来的方向  241
    Python最佳实践指南
    https://pythonguidecn.readthedocs.io/zh/latest/

第1章——开始数据挖掘之旅  241
    Scikit-learn教程  241
    http://scikit-learn.org/stable/tutorial/index.html
    扩展IPython Notebook  241
    http://ipython.org/ipython-doc/
第2章——用scikit-learn估计器分类  242
    k近邻算法的扩展  242
    virtualenv 教程
    http://docs.python-guide.org/en/latest/dev/virtualenvs/
    更多复杂的流水线  242
    比较分类器  243
第3章——用决策树预测获胜球队  243
    pandas的更多内容  243
    更多复杂特征  243
第4章——用亲和性分析方法推荐电影  244
    新数据集  244
    Eclat算法  244
第5章——用转换器抽取特征  244
    增加噪音  244
    Vowpal Wabbit  245
第6章——使用朴素贝叶斯进行社会媒体挖掘  245
    垃圾信息监测  245
    自然语言处理和词性标注  245
第7章——用图挖掘找到感兴趣的人  245
    更复杂的算法  245
    NetworkX  246
第8章——用神经网络破解验证码  246
    好(坏?)验证码  246
    深度网络  246
    增强学习  246
第9章——作者归属问题  247
    增加数据量  247
    博客语料  247
    局部N元语法  247
第10章——新闻语料分类  247
    算法评价  247
    近期趋势分析  248
    实时聚类  248
第11章——用深度学习方法为图像中的物体进行分类  248
    Keras和Pylearn2  248
    Mahotas  249
第12章——大数据处理  249
    Hadoop课程  249
    Pydoop  249
    推荐引擎  249
    更多资源  250
分享到:
评论

相关推荐

    电动车上牌管理系统 SSM毕业设计 附带论文.zip

    电动车上牌管理系统 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B

    tornado-6.1-cp39-cp39-manylinux2010_x86_64.whl

    tornado-6.1-cp39-cp39-manylinux2010_x86_64.whl

    【eclipse和idea两个版本运行源码】基于Java Swing +mysql 实现的网吧管理系统

    一、项目简介 本项目是一套基于Java Swing 开发的网吧管理系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,确保可以运行! 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 二、技术实现 ​后台技术:java swing ​数据库:MySQL ​数据库连接池:c3p0 三、系统主要功能 用户登录: 分为 普通用户和管理员 两种角色 菜单模块:上机,下机, 系统设置:管理员设置,会员设置,计费设置, 退出系统 管理模块:增加会员,删除会员,信息修改,信息查询 视图模块:主页视图,在线用户,统计视图, 统计报表模块:人数报表,收入报表 帮助模块:联系我们,关于系统 详见:https://blog.csdn.net/weixin_43860634/article/details/125247764

    pc-dmis软件脚本-输出Excel格式报告

    使用软件自带的basic脚本编辑制作的脚本 低版本软件无法输出Excel报告,可以通过脚本方式实现这一功能

    【java毕业设计】校园失物招领系统源码(springboot+vue+mysql+说明文档).zip

    项目经过测试均可完美运行! 环境说明: 开发语言:java jdk:jdk1.8 数据库:mysql 5.7+ 数据库工具:Navicat11+ 管理工具:maven 开发工具:idea/eclipse

    基于java的网上电子书店h答辩PPT.pptx

    基于java的网上电子书店h答辩PPT.pptx

    基于微信小程序的微信小程序校园失物招领答辩PPT.pptx

    基于微信小程序的微信小程序校园失物招领答辩PPT.pptx

    基于java的基于Java的学生综合测评管理系统答辩PPT.pptx

    基于java的基于Java的学生综合测评管理系统答辩PPT.pptx

    pandas-2.1.4-cp39-cp39-win_amd64.zip

    pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。

    判断题 - 题目列表 - 图-练习题集飒飒阿萨

    springboot体育器材管理系统(附源码+数据库)71175

    管理员功能: 用户管理:管理员可以管理用户账户,包括审核新注册用户、禁用违规用户、重置密码等操作。 器材管理:管理员可以管理器材的信息,包括添加新器材、编辑器材详情、设定器材规则和限制等。 器材预约与借还管理:管理员可以处理用户的器材预约请求,确认或调整预约时间,并记录借还操作。 库存管理:管理员可以监控器材库存情况,及时补充不足的器材并处理损坏或报废的器材。 数据统计与报表:管理员可以分析系统的使用情况和借还记录,生成数据统计报表以了解器材使用情况和借还频率等。 系统设置与维护:管理员可以进行系统设置,包括配置器材规则、设定可用时间段、备份数据、优化系统性能等。 消息通知与提醒:管理员可以向用户发送消息通知,如器材预约成功、归还提醒、系统更新通知等。

    Jira插件安装包Dynamic-forms

    Jira插件安装包Dynamic-forms

    pandas-2.1.4-cp311-cp311-win_amd64.zip

    pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。

    少儿图形化scratch编程作品源码集100个

    Scratch是一款由麻省理工学院(MIT)的“终身幼儿园团队”开发的图形化编程工具,专为儿童设计,旨在帮助他们学习编程思维和逻辑能力。

    基于java的学生就业管理系统答辩PPT.pptx

    基于java的学生就业管理系统答辩PPT.pptx

    课设毕设基于SpringBoot+Vue的旅游门票信息系统设计与实现源码可运行.zip

    本压缩包资源说明,你现在往下拉可以看到压缩包内容目录 我是批量上传的基于SpringBoot+Vue的项目,所以描述都一样;有源码有数据库脚本,系统都是测试过可运行的,看文件名即可区分项目~ |Java|SpringBoot|Vue|前后端分离| 开发语言:Java 框架:SpringBoot,Vue JDK版本:JDK1.8 数据库:MySQL 5.7+(推荐5.7,8.0也可以) 数据库工具:Navicat 开发软件: idea/eclipse(推荐idea) Maven包:Maven3.3.9+ 系统环境:Windows/Mac

    大学志愿填报系统.zip

    随着社会对志愿服务活动的日益重视,各大高校也纷纷参与到志愿服务的行列中。为了更好地管理和记录志愿者活动,提高志愿服务的质量和效率,我们开发了这款大学志愿服务系统。 该系统主要包括多个功能模块,如信息管理、活动管理、学生管理等。信息管理模块允许学校管理员录入、修改和删除学校的基本信息,包括学校账号、名称、联系电话、地址、特色以及办学理念等,确保信息的准确性和完整性。活动管理模块则用于记录和管理志愿者活动的相关信息,包括活动的名称、时间、地点、参与人员等,方便志愿者进行报名和签到。 此外,系统还提供了学生管理模块,用于记录学生的志愿服务经历和表现,为学生参与志愿服务提供便利。同时,系统还支持照片上传和展示功能,通过展示志愿者活动的照片,让更多人了解和关注志愿服务事业。 整个系统界面简洁明了,操作便捷,功能强大。通过使用该系统,高校可以更加高效地管理和记录志愿者活动,提高志愿服务的整体水平。同时,该系统也为广大志愿者提供了一个展示自我、服务社会的平台。

    turbo均衡算法研究

    turbo均衡算法研究

    静态编译的Qt6.7.3(win10+MSVC2022+openssl+静态运行时) part01

    https://blog.csdn.net/aggs1990/article/details/143491823 静态编译的Qt6.7.3(win10+MSVC2022+openssl+静态运行时) 压缩包比较大,这是第一部分

    tornado-6.4b1-cp38-abi3-musllinux_1_1_i686.whl

    tornado-6.4b1-cp38-abi3-musllinux_1_1_i686.whl

Global site tag (gtag.js) - Google Analytics