`
huangyongxing310
  • 浏览: 490650 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

机器学习库Sklearn

 
阅读更多
机器学习库Sklearn

sklearn,是基于python的机器学习库,可以方便进行机器学习算法的实施,包括:分类、回归、聚类、降维、模型选择和预处理等数据挖掘的相关算法。



K近邻算法(KNeighborsClassifier),分类算法
K最近邻(k-Nearest Neighbor,KNN)分类算法的核心思想是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。


支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。
一般SVM有下面三种:

硬间隔支持向量机(线性可分支持向量机):当训练数据线性可分时,可通过硬间隔最大化学得一个线性可分支持向量机。
软间隔支持向量机:当训练数据近似线性可分时,可通过软间隔最大化学得一个线性支持向量机。
非线性支持向量机:当训练数据线性不可分时,可通过核方法以及软间隔最大化学得一个非线性支持向量机。


分类与回归树(Classification and Regression Trees ,CART)算法常用于特征含有类别信息的分类或者回归问题,这种方法非常适用于多分类情况。


决策树
      分类与回归树(Classification and Regression Trees ,CART)算法常用于特征含有类别信息的分类或者回归问题,这种方法非常适用于多分类情况。


朴素贝叶斯
      这也是著名的机器学习算法,该方法的任务是还原训练样本数据的分布密度,其在多类别分类中有很好的效果。


逻辑回归
      大多数问题都可以归结为二元分类问题。这个算法的优点是可以给出数据所在类别的概率。



import numpy as np
from sklearn.cluster import KMeans
data = np.random.rand(100, 3) #生成一个随机数据,样本大小为100, 特征数为3

#假如我要构造一个聚类数为3的聚类器
estimator = KMeans(n_clusters=3)#构造聚类器
estimator.fit(data)#聚类
label_pred = estimator.labels_ #获取聚类标签
centroids = estimator.cluster_centers_ #获取聚类中心
inertia = estimator.inertia_ # 获取聚类准则的总和



https://blog.csdn.net/huangfei711/article/details/784800785 分钟带你弄懂 k-means 聚类
https://blog.csdn.net/kevinelstri/article/details/52636661
https://blog.csdn.net/linxid/article/details/79104130
https://blog.csdn.net/kevinelstri/article/details/60960574
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics