python sklearn-07：降维-PCA

博客分类：

编程学习
大数据
数据分析

链接：https://muxuezi.github.io/posts/7-dimensionality-reduction-with-pca.html 官网链接： 1.PCA： PCA(principal component analysis,主成分分析)：主要解决三类问题： 1.降维可以缓解维度灾难问题； 2.降维可以在压缩数据的同时让信息损失最小化； ...

2017-02-15 16:02
浏览 6234
评论(0)
分类:编程语言

python基础学习：读取excel文件

博客分类：

python excel xlrd pyExcelerator

原文链接：http://www.jb51.net/article/42635.htm 1.读取Excel(需要安装xlrd)： #-*- coding: utf8 -*- import xlrd fname = "reflect.xls" bk = xlrd.open_workbook(fname) shxrange = range(bk.nsheets) try: sh = bk.sheet_by_name("Sheet1") except: print "no sheet in %s named She ...

2017-02-14 14:28
浏览 626
评论(0)
分类:编程语言

python sklearn-06：聚类-k-means

博客分类：

python sklearn 聚类 k-means

聚类是用于找出不带标签数据的相似性的算法。译文链接：https://muxuezi.github.io/posts/6-clustering-with-k-means.html 1.K-Means算法由于具有出色的速度和良好的可扩展性，K-Means聚类算法算得上是最著名的聚类方法。K-Means算法是一个 ...

2017-02-13 16:17
浏览 10377
评论(1)
分类:编程语言

python基础学习：json模块

博客分类：

python
编程学习

python json loads dumps

python json模块网上找的一些资料,进行了总结：（一）什么是json： JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集。JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯（包括C, C++, C#, Java, JavaScript, Perl, Python等）。这些特性使JSON成为 ...

2017-02-07 16:33
浏览 981
评论(0)
分类:编程语言

python基础学习：request模块高级用法

博客分类：

python
编程学习

python request 高级用法

python request模块高级用法链接：http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced 1.会话对象会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie，期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求，底层的 TCP 连接将会被重用，从而带来显著的性能提升。 (参见 HTTP persistent connection). 会话对象具有主要的 Reque ...

2017-02-07 12:30
浏览 2654
评论(0)
分类:编程语言

python基础学习：request模块基础用法

python request 基础用法

python request模块学习链接：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html import requests 1.发送请求： HTTP 请求类型：GET，POST，PUT，DELETE，HEAD 以及 OPTIONS >>> r = requests.get('https://github.com/timeline.json') >>> r = requests.post("http://httpbin.org/post") ...

2017-02-07 11:14
浏览 1067
评论(0)
分类:编程语言

python sklearn-05：决策树及随机森林

博客分类：

大数据
数据分析
算法

python sklearn 决策树随机森林

1.决策树 2.随机森林 1.决策树(decision tree) 决策树一种简单的非线性模型，用来解决回归与分类问题。通常是重复的将训练集解释变量分割成子集的过程。决策树的节点用方块表示，用来测试解释变量。每个节点向下的边表示不同决策产生结果。训练集的样本由决策结果分成不同的子集。例如，一个节点测试解释变量的值是否超过的限定值。如果没有超过，则进入该节点的右侧子节点；如果超过，则进入左侧子节点。子节点的运行原理和前面的一样，直到终止条件（stopping criterion）满足才停止。在分类任务中，包含在叶子节点中的样本响应变量的值的平均值作为响应变量的估计值。

2016-10-14 15:35
浏览 12344
评论(0)
分类:编程语言

python sklearn-04：逻辑回归及其效果评估

博客分类：

大数据
算法
统计基础

python sklearn 逻辑回归效果评估网格搜索

scikit-learn官方文档：http://scikit-learn.org/stable/tutorial/ 译文：https://muxuezi.github.io/posts/4-from-linear-regression-to-logistic-regression.html 目录： 1.二元分类： >>逻辑回归 >>网格搜索 2.多元分类 3.多标签分类

2016-10-10 17:42
浏览 20182
评论(0)
分类:编程语言

python sklearn-03：特征提取方法基础知识

博客分类：

大数据
数据分析
算法

Python sklearn 特征向量提取

特征提取方法基础知识，将不同类型的数据转换成特征向量方便机器学习算法研究 1.分类变量特征提取:分类数据的独热编码方法，并用scikit-learn的DictVectorizer类实现 2.机器学习问题中常见的文档特征向量: >>1)词库模型� ...

2016-08-26 17:46
浏览 22083
评论(0)
分类:编程语言

python sklearn-02：线性回归简单例子1

python sklearn 机器学习线性回归例子

原文链接：https://muxuezi.github.io/posts/2-linear-regression.html 1.一元线性回归： #一元线性回归：预测披萨的价格：数据如下： import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties #这个属性设置是让matplot画图时显示中文的标签 font = FontProperties(fname=r"C:\Windows\Fonts\msyh.ttc",size=15) #定义 ...

2016-07-28 17:21
浏览 7792
评论(0)
分类:编程语言

python sklearn-01：机器学习基础

博客分类：

大数据
数据分析
算法

python sklearn 机器学习基础

最近对python机器学习有点兴趣，学习之余顺便做下笔记，方便以后查阅。官方文档链接：http://scikit-learn.org/stable/tutorial/ YouTube上的一个教程：https://www.youtube.com/playlist?list=PLXO45tsB95cI7ZleLM5i3XXhhe9YmVrRO 翻译的一个文章：https://muxuezi.github.io/posts/1-the-fundamentals-of-machine-learning.html 1.机器学习基础： >>机器学习的基础是归纳，就是从已知案 ...

2016-07-27 15:08
浏览 2069
评论(0)
分类:编程语言

hadoop实战-07.ubuntu14.04安装vsftpd服务

博客分类：

大数据
linux
ubuntu
vsftp

ubuntu vsftp 安装出错没找到软件包

因为从总是要下载东西，虚拟机本身内存有限，所以考虑安装ftp服务，可以往虚拟机上上传文件。 #Ubuntu 安装 vsftpd 服务 sudo apt-get update sudo apt-get install vsftpd 安装时老是提示没找到vsftp软件包，改 gedit /etc/apt/sources.list 或vi /etc/apt/sources.list, 在最后加入 deb http://ftp.us.debian.org/debian stable main contrib non-free deb http://ftp.us.deb ...

2016-07-17 20:52
浏览 595
评论(0)
分类:编程语言

hadoop实战-06.ubuntu14.0安装hadoop 2.7.1( 3台主机) 小集群

博客分类：

大数据
linux
ubuntu

之前配置的是1.0.2，这个版本较老了，所以升级成2.7.1了。大致上两个版本的配置差异不会太大。规划： ubuntu1 172.19.43.178 master,namenode,jobtracker-master ubuntu2 172.19.43.114 slave1,datanode,tasktracker-slave1 ubuntu3 172,19.43.98 slave2,datanode,tasktracker-slave2 1.配置jdk 1.7 下载64位 jdk1.7 复制jdk1.7到 /u

2016-06-24 12:02
浏览 973
评论(0)
分类:编程语言

hadoop实战-05.配置hadoop小集群(3台主机)

博客分类：

linux
ubuntu

linux ubuntu hadoop 集群搭建

配置3台主机hadoop小集群：将之前配置好的伪分布式的ubuntu虚拟机克隆多两份，一共三份因为3台机的配置是一样的，所以可以省去很多的安装，jdk，ssh，hadoop的安装为这3台机分配角色： ubuntu1 172.19.43.178 master,namenode,jobtracker-master ubuntu2 172.19.43.114 slave1,datanode,tasktracker-slave1 ubuntu3 172,19.43.98 slave2,datanode,tasktracker-slave2 在3台主机上分别设置/ec ...

2016-06-17 16:25
浏览 1163
评论(0)
分类:互联网

hadoop实战-04.ubuntu配置伪分布式hadoop

博客分类：

linux
ubuntu

linux ubuntu hadoop 伪分布式配置

配置伪分布模式 1.配置xml文件：这里需要设定3个文件：core-site.xml　　hdfs-site.xml　　mapred-site.xml，都在/home/vinking/hadoop/conf目录下 core-site.xml: Hadoop Core的配置项，例如HDFS和MapReduce常用的I/O设置等。 hdfs-site.xml: Hadoop 守护进程的配置项，包括namenode，辅助namenode和datanode等。 mapred-site.xml： MapReduce 守护进程的配置项，包括jobtracker和tasktracker。 #m ...

2016-06-16 16:28
浏览 704
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python sklearn-07：降维-PCA

python基础学习：读取excel文件

python sklearn-06：聚类-k-means

python基础学习：json模块

python基础学习：request模块高级用法

python基础学习：request模块基础用法

python sklearn-05：决策树及随机森林

python sklearn-04：逻辑回归及其效果评估

python sklearn-03：特征提取方法基础知识

python sklearn-02：线性回归简单例子1

python sklearn-01：机器学习基础

hadoop实战-07.ubuntu14.04安装vsftpd服务

hadoop实战-06.ubuntu14.0安装hadoop 2.7.1( 3台主机) 小集群

hadoop实战-05.配置hadoop小集群(3台主机)

hadoop实战-04.ubuntu配置伪分布式hadoop

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>