决策树

huangyongxing310

浏览: 507415 次
性别:
来自: 广州

最近访客更多访客>>

hiroada

lixiaoxin

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习

决策树

树形模型是一个一个特征进行处理，之前线性模型是所有特征给予权重相加得到一个新的值。

采用自顶向下的递归的方法，基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处熵值为0（叶节点中的实例都属于一类）

根节点（最重要的特征）；父节点与子节点是一对，先有父节点，才会有子节点；叶节点（最终标签）。

原理:
就是从样本中得到一个用于进行判断的树（判断特征的顺序），方法就是从样要中计算每个特征对结果的贡献大小来决定顺序.

随机森林(RandomForestClassifier)
同一批数据，用同样的算法只能产生一棵树，这时Bagging策略可以帮助我们产生不同的数据集。Bagging策略来源于bootstrap aggregation：从样本集（假设样本集N个数据点）中重采样选出Nb个样本（有放回的采样，样本数据点个数仍然不变为N），在所有样本上，对这n个样本建立分类器（ID3\C4.5\CART\SVM\LOGISTIC），重复以上两步m次，获得m个分类器，最后根据这m个分类器的投票结果，决定数据属于哪一类。

随机森林在bagging的基础上更进一步：

1. 样本的随机：从样本集中用Bootstrap随机选取n个样本

2. 特征的随机：从所有属性中随机选取K个属性，选择最佳分割属性作为节点建立CART决策树（泛化的理解，这里面也可以是其他类型的分类器，比如SVM、Logistics）

3. 重复以上两步m次，即建立了m棵CART决策树

4. 这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类（投票机制有一票否决制、少数服从多数、加权多数）

关于调参：1.如何选取K，可以考虑有N个属性，取K=根号N
               2.最大深度（不超过8层）
               3.棵数
               4.最小分裂样本树
               5.类别比例

# coding=utf-8

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import tree
import numpy as np
from sklearn.externals.six import StringIO
import pydot


def main():
    iris = datasets.load_iris()  # 典型分类数据模型
    # 这里我们数据统一用pandas处理
    data = pd.DataFrame(iris.data, columns=iris.feature_names)
    data['class'] = iris.target

    # 这里只取两类
    data = data[data['class'] != 2]
    # 为了可视化方便，这里取两个属性为例
    X = data[['sepal length (cm)', 'sepal width (cm)']]
    Y = data[['class']]
    # 划分数据集
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
    # 创建决策树模型对象，默认为CART
    dt = tree.DecisionTreeClassifier()
    dt.fit(X_train, Y_train)

    # 返回树中的决策路径
    dp = dt.decision_path(X_test)
    print('X_test')
    print(X_test)
    print('决策路径')
    print(dp)

    print("特征重要性（数组）")  # 特征重要性（数组）
    print(dt.feature_importances_)#特征重要性（数组）

    print("类别标签（数组或列表）")  #类别标签（数组或列表）
    print(dt.classes_)  # 类别标签（数组或列表）

    print("max_features的inferred（推测？）值（int）")  # max_features的inferred（推测？）值（int）
    print(dt.max_features_)  # max_features的inferred（推测？）值（int）

    print("类别数目（int）")  # 类别数目（int）
    print(dt.n_classes_)  # 类别数目（int）

    print("特征数目（int）")  #特征数目（int）
    print(dt.n_features_)  # 特征数目（int）

    print("输出数目（int）")  # 输出数目（int）
    print(dt.n_outputs_)  # 输出数目（int）

    print("树对象")  # 树对象
    print(dt.tree_)  # 树对象






    # 显示训练结果
    print(dt.score(X_test, Y_test))
      # score是指分类的正确率

    # 作图
    h = 0.02
    x_min, x_max = X.iloc[:, 0].min() - 1, X.iloc[:, 0].max() + 1
    y_min, y_max = X.iloc[:, 1].min() - 1, X.iloc[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = dt.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)

    # 做出原来的散点图
    class1_x = X.loc[Y['class'] == 0, 'sepal length (cm)']
    class1_y = X.loc[Y['class'] == 0, 'sepal width (cm)']
    l1 = plt.scatter(class1_x, class1_y, color='b', label=iris.target_names[0])
    class1_x = X.loc[Y['class'] == 1, 'sepal length (cm)']
    class1_y = X.loc[Y['class'] == 1, 'sepal width (cm)']
    l2 = plt.scatter(class1_x, class1_y, color='r', label=iris.target_names[1])
    plt.legend(handles=[l1, l2], loc='best')

    plt.grid(True)
    plt.show()
    # 导出决策树的图片，需要配置graphviz，并且添加到环境变量
    dot_data = StringIO()
    tree.export_graphviz(dt, out_file=dot_data, feature_names=X.columns,
                         class_names=['healthy', 'infected'],
                         filled=True, rounded=True,
                         special_characters=True)
    graph = pydot.graph_from_dot_data(dot_data.getvalue())[0]
    # graph.write_png("Iris.png")


if __name__ == '__main__':
    main()

# coding=utf-8

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import tree
import numpy as np
from sklearn.externals.six import StringIO
import pydot
from sklearn.externals.six import StringIO
import pydot
import pydotplus
import os



def main():
    # ['有房', '有工作', '有车','年龄']
    X_train = np.array([[1, 1, 1, 25],
                        [1, 1, 0, 35],
                        [1, 0, 1, 32],
                        [0, 1, 1, 31],
                        [0, 0, 1, 20],
                        [0, 1, 0, 20],
                        [1, 0, 0, 21],
                        [1, 1, 0, 28],
                        [1, 0, 1, 30],
                        [1, 1, 0, 32]])

    Y_train = np.array([1, 0, 0, 0, 1,
                        1, 0, 1, 1, 1])

    X_test = np.array([[1, 1, 0, 33]])
    Y_test = np.array([1])

    # 创建决策树模型对象，默认为CART
    dt = tree.DecisionTreeClassifier()
    dt.fit(X_train, Y_train)

    print("特征重要性（数组）")  # 特征重要性（数组）
    print(dt.feature_importances_)  # 特征重要性（数组）
    # [0.         0.33333333 0.         0.66666667]

    print("类别标签（数组或列表）")  # 类别标签（数组或列表）
    print(dt.classes_)  # 类别标签（数组或列表）

    print("max_features的inferred（推测？）值（int）")  # max_features的inferred（推测？）值（int）
    print(dt.max_features_)  # max_features的inferred（推测？）值（int）
    # 4

    print("类别数目（int）")  # 类别数目（int）
    print(dt.n_classes_)  # 类别数目（int）

    print("特征数目（int）")  # 特征数目（int）
    print(dt.n_features_)  # 特征数目（int）

    print("输出数目（int）")  # 输出数目（int）
    print(dt.n_outputs_)  # 输出数目（int）

    print("树对象")  # 树对象
    print(dt.tree_)  # 树对象

    predict_y = dt.predict(X_test)

    print("predict_y = ", predict_y)
    # predict_y = [1]

    # score是指分类的正确率
    print("score = ", dt.score(X_test, Y_test))
    # score =  1.0

    # 返回每个样本被预测的叶子结点索引
    print("apply = ", dt.apply(X_test))
    # apply =  [6]

    # 返回决策路径
    print("decision_path = ", dt.decision_path(X_test))
    # decision_path =    (0, 0)	1
    #   (0, 2)	1
    #   (0, 6)	1

    # 获取参数
    print("get_params = ", dt.get_params())

    # 预测输入样本的类别对数概率
    print("predict_log_proba = ", dt.predict_log_proba(X_test))
    # 预测输入样本的类别概率
    print("predict_proba = ", dt.predict_proba(X_test))


    #
    dot_data = StringIO()
    tree.export_graphviz(dt, out_file=dot_data)
    graph = pydot.graph_from_dot_data(dot_data.getvalue())
    # graph[0].write_dot('test002.dot')
    graph[0].write_png('test002.png')

    # graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
    # graph.write_pdf("test002.pdf")
    # graph.

    # graph = pydot.graph_from_dot_data(dot_data.getvalue())
    # graph[0].write_pdf("test002.pdf")

if __name__ == '__main__':
    os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'
    main()

查看图片附件

分享到：

图像的灰度化 | 人脸识别原理

2018-10-08 22:04
浏览 349
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

决策树

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

决策树

评论

发表评论

相关推荐

SVM 支持向量机

Pandas 基础

霍夫变换

图像对比的方法和原理分析

识别手写数字 原理分析

Viola-Jones 人脸检测算法解析

灰度图像--形态学处理（腐蚀，膨胀，开、闭运算）

tesseract应用

卷积神经网络（CNN）

python3光学字符识别模块tesserocr与pytesseract

LBP原理介绍以及算法实现(局部二值模式)

sklearn 神经网络

神经网络学习 之 M-P模型

图片滤波

灰度直方图均衡化与直方图规定化

图像的灰度化

人脸识别原理

LDA降维和分类

KNN 分类算法

机器学习相关的库

最近访客更多访客>>

识别手写数字原理分析

神经网络学习之 M-P模型