`
vinking934296
  • 浏览: 107318 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论
文章列表
链接:https://muxuezi.github.io/posts/7-dimensionality-reduction-with-pca.html 官网链接: 1.PCA: PCA(principal component analysis,主成分分析):主要解决三类问题: 1.降维可以缓解维度灾难问题; 2.降维可以在压缩数据的同时让信息损失最小化; ...
原文链接:http://www.jb51.net/article/42635.htm   1.读取Excel(需要安装xlrd): #-*- coding: utf8 -*- import xlrd fname = "reflect.xls" bk = xlrd.open_workbook(fname) shxrange = range(bk.nsheets) try: sh = bk.sheet_by_name("Sheet1") except: print "no sheet in %s named She ...
聚类是用于找出不带标签数据的相似性的算法。  译文链接:https://muxuezi.github.io/posts/6-clustering-with-k-means.html 1.K-Means算法 由于具有出色的速度和良好的可扩展性,K-Means聚类算法算得上是最著名的聚类方法。K-Means算 法是一个 ...
python json模块 网上找的一些资料,进行了总结:   (一)什么是json: JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集。JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为 ...
python request模块 高级用法 链接:http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced   1.会话对象 会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie, 期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求,底层的 TCP 连接将会被重用,从而带来显著的性能提升。 (参见 HTTP persistent connection). 会话对象具有主要的 Reque ...
python request模块学习 链接:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html import requests  1.发送请求: HTTP 请求类型:GET,POST,PUT,DELETE,HEAD 以及 OPTIONS  >>> r = requests.get('https://github.com/timeline.json') >>> r = requests.post("http://httpbin.org/post") ...
1.决策树 2.随机森林   1.决策树(decision tree) 决策树一种简单的非线性模型,用来解决回归与分类问题。 通常是重复的将训练集解释变量分割成子集的过程。决策树的节点用方块表示,用来测试解释变量。 每个节点向下的边表示不同决策产生结果。训练集的样本由决策结果分成不同的子集。例如,一个节点测试解释变量的值是否超过的限定值。如果没有超过,则进入该节点的右侧子节点;如果超过,则进入左侧子节点。子节点的运行原理和前面的一样,直到终止条件(stopping criterion)满足才停止。在分类任务中,包含在叶子节点中的样本响应变量的值的平均值作为响应变量的估计值。
scikit-learn官方文档:http://scikit-learn.org/stable/tutorial/ 译文:https://muxuezi.github.io/posts/4-from-linear-regression-to-logistic-regression.html   目录: 1.二元分类:    >>逻辑回归    >>网格搜索 2.多元分类 3.多标签分类    
特征提取方法基础知识,将不同类型的数据转换成特征向量方便机器学习算法研究 1.分类变量特征提取:分类数据的独热编码方法,并用scikit-learn的DictVectorizer类实现   2.机器学习问题中常见的文档特征向量: >>1)词库模型 ...
原文链接:https://muxuezi.github.io/posts/2-linear-regression.html 1.一元线性回归: #一元线性回归: 预测披萨的价格:数据如下:   import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties #这个属性设置是让matplot画图时显示中文的标签 font = FontProperties(fname=r"C:\Windows\Fonts\msyh.ttc",size=15) #定义 ...
最近对python机器学习有点兴趣,学习之余顺便做下笔记,方便以后查阅。 官方文档链接:http://scikit-learn.org/stable/tutorial/ YouTube上的一个教程:https://www.youtube.com/playlist?list=PLXO45tsB95cI7ZleLM5i3XXhhe9YmVrRO 翻译的一个文章:https://muxuezi.github.io/posts/1-the-fundamentals-of-machine-learning.html   1.机器学习基础: >>机器学习的基础是归纳,就是从已知案 ...
因为从总是要下载东西,虚拟机本身内存有限,所以考虑安装ftp服务,可以往虚拟机上上传文件。   #Ubuntu 安装 vsftpd 服务 sudo apt-get update sudo apt-get install vsftpd 安装时老是提示没找到vsftp软件包,   改 gedit /etc/apt/sources.list  或vi /etc/apt/sources.list, 在最后加入 deb http://ftp.us.debian.org/debian stable main contrib non-free  deb http://ftp.us.deb ...
之前配置的是1.0.2,这个版本较老了,所以升级成2.7.1了。 大致上两个版本的配置差异不会太大。 规划: ubuntu1 172.19.43.178  master,namenode,jobtracker-master ubuntu2 172.19.43.114  slave1,datanode,tasktracker-slave1 ubuntu3 172,19.43.98   slave2,datanode,tasktracker-slave2   1.配置jdk 1.7 下载64位 jdk1.7 复制jdk1.7到 /u
配置3台主机hadoop小集群: 将之前配置好的伪分布式的ubuntu虚拟机克隆多两份,一共三份 因为3台机的配置是一样的,所以可以省去很多的安装,jdk,ssh,hadoop的安装 为这3台机分配角色: ubuntu1 172.19.43.178  master,namenode,jobtracker-master ubuntu2 172.19.43.114  slave1,datanode,tasktracker-slave1 ubuntu3 172,19.43.98   slave2,datanode,tasktracker-slave2   在3台主机上分别设置/ec ...
配置伪分布模式 1.配置xml文件: 这里需要设定3个文件:core-site.xml  hdfs-site.xml  mapred-site.xml,都在/home/vinking/hadoop/conf目录下 core-site.xml: Hadoop Core的配置项,例如HDFS和MapReduce常用的I/O设置等。 hdfs-site.xml: Hadoop 守护进程的配置项,包括namenode,辅助namenode和datanode等。 mapred-site.xml: MapReduce 守护进程的配置项,包括jobtracker和tasktracker。 #m ...
Global site tag (gtag.js) - Google Analytics