LDA降维和分类

huangyongxing310

浏览: 504126 次
性别:
来自: 广州

最近访客更多访客>>

hiroada

lixiaoxin

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习

LDA降维和分类

LDA可以降维和分类
LinearDiscriminantAnalysis(LDA):
就是将多维的样本数据集映射到一个坐标轴上(可以是多维的(以降维作为目的)),使得样本数据可以在这个坐标轴上就可以进行分类，和最小的类内距离，投影后使样本在新的子空间有最大的类间距离即样本在该空间中有最佳的可分离性。（即用这个坐标系就可以进行样本分类了,以达到计算简单，减小计算时间）
分类前的降维
LDA降维:是为了在坐标轴上的同类更集中，异类更分散

# coding=utf-8

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
import numpy as np


def main():
    np.random.seed(0)
    # 设置随机种子，不设置的话默认是按系统时间作为参数，因此每次调用随机模块时产生的随机数都不一样设置后每次产生的一样
    iris = datasets.load_iris()
    # 导入鸢尾花的数据集，iris是一个类似于结构体的东西，内部有样本数据，如果是监督学习还有标签数据
    iris_x = iris.data
    # 样本数据150*4二维数据，代表150个样本，每个样本4个属性分别为花瓣和花萼的长、宽
    iris_y = iris.target
    # 长150的以为数组，样本数据的标签
    indices = np.random.permutation(len(iris_x))
    # permutation接收一个数作为参数(150),产生一个0-149一维数组，只不过是随机打乱的，当然她也可以接收一个一维数组作为参数，结果是直接对这个数组打乱
    iris_x_train = iris_x[indices[:-10]]
    # 随机选取140个样本作为训练数据集
    iris_y_train = iris_y[indices[:-10]]

    # 并且选取这140个样本的标签作为训练数据集的标签
    iris_x_test = iris_x[indices[-10:]]
    # 剩下的10个样本作为测试数据集

    iris_y_test = iris_y[indices[-10:]]

    # 降为2维进行分类
    lda = LinearDiscriminantAnalysis(n_components=2)
    lda.fit(iris_x_train, iris_y_train)

    # 显示训练结果
    print("lda.means_")
    print(lda.means_)  # 中心点
    print("score")
    print(lda.score(iris_x_test, iris_y_test))  # score是指分类的正确率
    print("lda.scalings_")
    print(lda.scalings_)  # score是指分类的正确率

    X_2d_test = lda.transform(iris_x_test)
    print("X_2d_test")
    print(X_2d_test)  # score是指分类的正确率

    # 降维后进行训练
    X_2d = lda.transform(iris_x_train)  # 现在已经降到二维X_2d=np.dot(X-lda.xbar_,lda.scalings_)
    lda.fit(X_2d, iris_y_train)

    # 降维后预测
    predict_y = lda.predict(X_2d_test)

    print("predict_y")
    print(predict_y)  #
    # [1 2 1 0 0 0 2 1 2 0]

    print("iris_y_test")
    print(iris_y_test)  #
    # [1 1 1 0 0 0 2 1 2 0]

    # # 对于二维数据，我们做个可视化
    # # 区域划分
    # # lda.fit(X_2d, iris_y_test)
    h = 0.02
    # 得到最大值和最小值
    x_min, x_max = X_2d[:, 0].min() - 1, X_2d[:, 0].max() + 1
    y_min, y_max = X_2d[:, 1].min() - 1, X_2d[:, 1].max() + 1
    # 网格数据
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))

    predict_x = np.c_[xx.ravel(), yy.ravel()]
    print("predict_x")
    print(predict_x)  #

    Z = lda.predict(predict_x)
    print("Z")
    print(Z)  #
    # [2 2 2... 0 0 0]

    #变为与XX的维数相同
    Z = Z.reshape(xx.shape)
    print("Z")
    print(Z)  #

    # contour和contourf都是画三维等高线图的，不同点在于contourf会对等高线间的区域进行填充，
    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)
    #
    # 做出原来的散点图
    class1_x = X_2d[iris_y_train == 0, 0]#得到iris_y_train == 0的数组X,布尔索引
    class1_y = X_2d[iris_y_train == 0, 1]#得到iris_y_train == 0的数组Y
    l1 = plt.scatter(class1_x, class1_y, color='b', label=iris.target_names[0])
    class1_x = X_2d[iris_y_train == 1, 0]
    class1_y = X_2d[iris_y_train == 1, 1]
    l2 = plt.scatter(class1_x, class1_y, color='y', label=iris.target_names[1])
    class1_x = X_2d[iris_y_train == 2, 0]
    class1_y = X_2d[iris_y_train == 2, 1]
    l3 = plt.scatter(class1_x, class1_y, color='r', label=iris.target_names[2])

    plt.legend(handles=[l1, l2, l3], loc='best')

    plt.grid(True)
    plt.show()


if __name__ == '__main__':
    main()

# coding=utf-8

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
import numpy as np


def main():
    data=np.array([[1,1],[2,2],[1.5,1.5],[3,3],[2,3],[1,5]])

    X = data[:, 0].reshape(-1, 1)  # 将array转换成矩阵(变成n行1列)
    y = data[:, 1].reshape(-1, 1)

    print("X=", X)
    print("y=", y)
    # 画相关的点
    plt.plot(X, y, "b.")
    plt.xlabel('X')
    plt.ylabel('y')
    plt.show()

    z_train = [0,0,0,1,1,1]

    lda = LinearDiscriminantAnalysis(n_components=2)
    lda.fit(data, z_train)
    predict_y = lda.predict([[2,1.5]])
    print('predict_y', predict_y)  # 中心点

    train_lda_X = lda.transform(data)
    print("train_lda_X ", train_lda_X)
    print("截距: ", lda.intercept_)
    print("系数: ", lda.coef_)


    # 显示训练结果
    # print(lda.means_)  # 中心点
    # print(lda.score(X_test, Y_test))  # score是指分类的正确率
    # print(lda.scalings_)  # score是指分类的正确率

    # predict_y = lda.predict([2,1.5])
    # print("predict_y: ", predict_y)







if __name__ == '__main__':
    main()

分享到：

人脸识别原理 | KNN 分类算法

2018-10-07 21:59
浏览 4206
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

LDA降维和分类

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

LDA降维和分类

评论

发表评论

相关推荐

SVM 支持向量机

Pandas 基础

霍夫变换

图像对比的方法和原理分析

识别手写数字 原理分析

Viola-Jones 人脸检测算法解析

灰度图像--形态学处理（腐蚀，膨胀，开、闭运算）

tesseract应用

卷积神经网络（CNN）

python3光学字符识别模块tesserocr与pytesseract

LBP原理介绍以及算法实现(局部二值模式)

sklearn 神经网络

神经网络学习 之 M-P模型

图片滤波

灰度直方图均衡化与直方图规定化

图像的灰度化

决策树

人脸识别原理

KNN 分类算法

机器学习相关的库

最近访客更多访客>>

识别手写数字原理分析

神经网络学习之 M-P模型