[Kaggle实战] Titanic 逃生预测 (3) - Age离散化 - 路漫漫

RangerWolf

浏览: 236190 次
性别:
来自: 南京

最近访客更多访客>>

dazhou

xubukang

minxiaomin

qihongce

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

[Kaggle实战] Titanic 逃生预测 (3) - Age离散化

博客分类：

java 数据挖掘 Kaggle

昨天的文章大致构建了一个data matrix, 并进行了数据清理。有一个遗留问题就是，如何将连续的Age属性离散化？

对于连续属性离散化，可以参考《数据挖掘导论》 2.3.6小节。

首先，我们试着将数据图形化，看看是否有明显的间隔区间。画图依然使用JFreeChart来进行。

从肉眼的角度来分析，虽然没有太明显的区间，但是从分布上看，基本上能如下图进行划分：

再来一张书上的原图进行对比：

这一张图里面的分布区间就太明显了。

除了使用图形化的方式来进行离散化，还可以有其他的方法：

(1) 等宽：比如Age: [0~15] [15~30] [30~45] ...

(2) 等频率/等深：比如前100个样本成一个区间，101~200个成1个区间 ...

(3) K均值(K-Means) ：这个方法现在有点早~ 后面可以进一步优化的时候再采用这种方法进行Age属性划分

所以，现在Age的划分就按照：

[0:15), [15:40) [40:+∞)

最后附上今天refine过的dataClean方法

public static double[][] dataClean(List<String[]> list) {
    double[][] dataMatrix = new double[list.size()][6];
    List<Double> ageList = new ArrayList<Double>();
    int startIndex = 0;
    int Survived_INDEX = startIndex++;
    int Pclass_INDEX = startIndex++;
    int Sex_INDEX = startIndex++;
    int Age_INDEX = startIndex++;
    int SibSp_INDEX = startIndex++;
    int Embarked_INDEX = startIndex++;
    
    for(int i = 0; i < list.size(); i++){
        String[] arr = list.get(i);
        // Survived
        dataMatrix[i][Survived_INDEX] = Integer.parseInt(arr[1]);
        
        // Pclass
        dataMatrix[i][Pclass_INDEX] = Integer.parseInt(arr[2]);
        
        // Sex
        if(arr[4].equals("male")) {
            dataMatrix[i][Sex_INDEX] = 1; 
        } else {
            dataMatrix[i][Sex_INDEX] = 2;
        }
        
        // Age
        if(arr[5].length() == 0) {
            dataMatrix[i][Age_INDEX] = -1;		// 首先将缺失值设置为-1
        } else {
            dataMatrix[i][Age_INDEX] = Double.parseDouble(arr[5]);
            ageList.add(Double.parseDouble(arr[5]));
        }
        
        // SibSp  将值大于2的归集为同一类
        if(Integer.parseInt(arr[6]) >= 2 ) {
            dataMatrix[i][SibSp_INDEX] = 2;
        } else {
            dataMatrix[i][SibSp_INDEX] = Integer.parseInt(arr[6]);
        }
        
        // Embarked C:1 Q:2 S:3 U:4	 
        // 原始数据之中已经手动的将缺失值补充为U,不是CQS的值，也用4来代替
        String embarked = arr[11];
        if(embarked.equals("C")) {
            dataMatrix[i][Embarked_INDEX] = 1;
        } else if(embarked.equals("Q")) {
            dataMatrix[i][Embarked_INDEX] = 2;
        } else if(embarked.equals("S")) {
            dataMatrix[i][Embarked_INDEX] = 3;
        } else  {
            dataMatrix[i][Embarked_INDEX] = 4;
        } 
        
    }
    
    // 将Age=-1的值变成中位数
    double[] ageArr = new double[ageList.size()];
    for(int i = 0; i < ageArr.length; i++) {
        ageArr[i] = ageList.get(i);
    }
    double median = StatUtils.percentile(ageArr, 50.0);	//中位数
    for(int i = 0; i < dataMatrix.length; i++) {
        if(dataMatrix[i][3] == -1) {
            dataMatrix[i][3] = median;
        }
        
        // 直接将Age离散化 [0:15), [15:40) [40:+∞)
        if(dataMatrix[i][3] < 15) dataMatrix[i][3] = 1;
        else if(dataMatrix[i][3] < 40) dataMatrix[i][3] = 2;
        else dataMatrix[i][3] = 3;
        
    }
    
    
    return dataMatrix;
}

至此，第一步数据预处理基本上完成。接下来应该做的就是构建一个决策树进行分类与预测了！

提交了一部分代码，可以到https://gitcafe.com/rangerwolf/Kaggle-Titanic 下载

查看图片附件

分享到：

[Kaggle实战] Titanic 逃生预测 (4) - 决 ... | [Kaggle实战] Titanic 逃生预测 (2) - 数 ...

2014-06-02 09:40
浏览 3939
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[Kaggle实战] Titanic 逃生预测 (3) - Age离散化

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[Kaggle实战] Titanic 逃生预测 (3) - Age离散化

评论

发表评论

相关推荐

[Lucene] Lucene 4.10 显示分词结果

[Hadoop] 分布式Join : Replicated Join

[Hadoop]使用Hadoop进行ReduceSideJoin

[Hadoop] Hadoop 链式任务 : ChainMapper and ChainReducer的使用

[Hadoop] 练习：使用Hadoop计算两个向量的内积

[Hadoop] TopK的一个简单实现

[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes

[Mahout] 为什么mahout需要sequencefile ?

[Mahout] mahout 0.9 的 seqdirectory 有bug

[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression

[Mahout] Windows + Eclipse 构建mahout运行环境

[Mahout] 第一个小实验：使用GroupLens进行推荐模型的检验

[Mahout] Windows下Mahout单机安装

[Kaggle实战] Titanic 逃生预测 (5) - 使用Dot语言绘制决策树

[Kaggle实战] Titanic 逃生预测 (4) - 决策树建模

[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理

[Kaggle实战] Titanic 逃生预测 (1) - 项目起步

Java实现的朴素贝叶斯分类器

使用Java实现的ID3算法

Weka 界面操作实例

最近访客更多访客>>