[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理 - 路漫漫

RangerWolf

浏览: 236189 次
性别:
来自: 南京

最近访客更多访客>>

dazhou

xubukang

minxiaomin

qihongce

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理

博客分类：

上一篇文章简要介绍了比赛的主题与将会使用到的数据集。

这一篇文章的主要任务是完成数据挖掘的第一步：数据清理

完成数据清理的第一步，就是先把数据读到内存之中。在这里，我使用的是OpenCsv. 可以到这里下载。

OpenCSV的使用可以参考： http://opencsv.sourceforge.net/#how-to-read

其中我对比了SuperCSV 以及其他的，发现他们主要花精力在跟Bean mapping 上。暂时感觉不实用~

可能后面会换一个也说不定。

下面是我读取数据集的方法：

/** 
 * 从CSV文件之中读取数据
 * @param csv 存放数据的csv文件
 * @param skipHeader 是否略过表头
 * @return 数据集
 */
public static List<String[]> readDataFromCSV(File csv, Boolean skipHeader) {
    
    List<String[]> myEntries = new ArrayList<String[]>();;
    try {
        CSVReader reader = new CSVReader(new FileReader(csv));
        myEntries = reader.readAll();
        if(skipHeader) {
            myEntries.remove(0);
        }
    } catch (FileNotFoundException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }
    return myEntries;
}

参考百度百科，预处理包括如下几个步骤：

(1) 数据清理：填写缺失值，光滑噪声数据等等。我们待会会首先清理数据

(2) 数据集成：将多个数据源合成同一个数据来源。在这里我们的来源只有1个csv文件，因此这一步免了~

(3) 数据变换：平滑聚集，数据概化等等。我们将会对Age进行处理，将连续数据离散化。

(4) 数据规约：目的是减小数据量，同时又不影响结果。在此我们的数据也就不到1000行~ 也不需要了~

好，先说说数据清理。

在我们的数据集之中，可以通过Excel来发现有哪些数据是缺失的。

首先给各个列加一个Filter

之后在各个列的Filter下拉列表之后，如果有Blank选项，则这一列就有空值。如下图所示的Age列

最终结果：Age, Cabin, Embarked字段有空值需要填充。

对于Age，我们使用中位数(Median)进行填充，

对于Cabin，由于这一列的值跟ID一样，几乎完全不同，而且缺失的值又非常多，因此这一列就略过不用。

对于Embarked，缺失的值也是用“Unknown”进行填充。为了简单起见，偶直接在Excel里面将缺失值写上“U”了。哈哈~

为了将Age进行平均值填充，同时也需要将原来的String类型的值映射成数值型，在此使用Apache common Math 进行矩阵计算。

在进行矩阵计算之前，我们先人工分析一下Fare跟PClass的关系。理论上，船位等级越高，票价也越高。我们需要画一个图进行验证。

如果他们具有很强的线性关系，我们就应该将其中一个去除，以免浪费算力，甚至产生overfitting的情况

Java之中没有太好的画图工具，就使用JFreeChart吧~

[话说，简单的数值分析，Python R 确实要比Java方便多了]

先看看结果：

在上面的图之中，横轴为旅客ID，纵轴为Ration=Fare/Pclass

可以看出，对于Pclass=1的旅客，票价方差比较大，对于Pclass=2 or 3的旅客来说，分布/方差就小得多了。

那就让我们再看一张将P=1去除的散点图：

发现 P3 跟P2的分布其实蛮有规律的。比如P2的集中在12.5跟5.0两条线，而P3的基本上就在2.5这条线了~

因此，目测，Fare的影响不是非常明显。

为了简单起见，暂时就将Fare这一列排除出去吧。

下面我们来看看SibSp这一列。

先看看原始数据吧：

0-609.0
1-210.0
2-29.0
3-17.0
4-19.0
5-6.0
6-1.0
7-1.0
8-8.0
9-1.0

其中6 7 9 的原始数据都是0，为了处理方便，给全部数据初始化的时候都设置成1

明显，这是一个指数分布。0对应的数量超过了其他所有加起来的总和。这在最后处理的时候，会对结果造成非常明显的影响。因此，为了使得最后的处理比较准确，需要将≥2的数据进行聚集。并且对最后的数据进行log计算。计算结果如下：

结果还不错，呈线性啦！

对于Parch一列，总共也有6个值，但是整体上，跟SibSp的值呈线性关系，因此也暂时将这一列忽略！

现在我们回到前面跳过去的，给Age的缺失值用中位数填充

这部分具体看code吧：

public static double[][] dataClean(List<String[]> list) {
    double[][] dataMatrix = new double[list.size()][6];
    List<Double> ageList = new ArrayList<Double>();
    
    for(int i = 0; i < list.size(); i++){
        int colIndex = 0;
        String[] arr = list.get(i);
        // Survived
        dataMatrix[i][colIndex++] = Integer.parseInt(arr[1]);
        
        // Pclass
        dataMatrix[i][colIndex++] = Integer.parseInt(arr[2]);
        
        // Sex
        if(arr[4].equals("male")) {
            dataMatrix[i][colIndex++] = 1; 
        } else {
            dataMatrix[i][colIndex++] = 2;
        }
        
        // Age
        if(arr[5].length() == 0) {
            dataMatrix[i][colIndex++] = -1;		// 首先将缺失值设置为-1
        } else {
            dataMatrix[i][colIndex++] = Double.parseDouble(arr[5]);
            ageList.add(Double.parseDouble(arr[5]));
        }
        
        // SibSp  将值大于2的归集为同一类
        if(Integer.parseInt(arr[6]) >= 2 ) {
            dataMatrix[i][colIndex++] = 2;
        } else {
            dataMatrix[i][colIndex++] = Integer.parseInt(arr[6]);
        }
        
        // Embarked C:1 Q:2 S:3 U:4	 
        // 原始数据之中已经手动的将缺失值补充为U,不是CQS的值，也用4来代替
        String embarked = arr[11];
        if(embarked.equals("C")) {
            dataMatrix[i][colIndex++] = 1;
        } else if(embarked.equals("Q")) {
            dataMatrix[i][colIndex++] = 2;
        } else if(embarked.equals("S")) {
            dataMatrix[i][colIndex++] = 3;
        } else if(embarked.equals("U")) {
            dataMatrix[i][colIndex++] = 4;
        } else  {
            dataMatrix[i][colIndex++] = 4;
        } 
        
    }
    
    // 将Age=-1的值变成中位数
    double[] ageArr = new double[ageList.size()];
    for(int i = 0; i < ageArr.length; i++) {
        ageArr[i] = ageList.get(i);
    }
    double median = StatUtils.percentile(ageArr, 50.0);	//中位数
    for(int i = 0; i < dataMatrix.length; i++) {
        if(dataMatrix[i][3] == -1) {
            dataMatrix[i][3] = median;
        }
        System.out.println(dataMatrix[i][3]);
    }
    return dataMatrix;
}

处理的最终数据矩阵如下：（前10行）

[0.0,3.0,1.0,22.0,1.0,3.0]
[1.0,1.0,2.0,38.0,1.0,1.0]
[1.0,3.0,2.0,26.0,0.0,3.0]
[1.0,1.0,2.0,35.0,1.0,3.0]
[0.0,3.0,1.0,35.0,0.0,3.0]
[0.0,3.0,1.0,28.0,0.0,2.0]
[0.0,1.0,1.0,54.0,0.0,3.0]
[0.0,3.0,1.0,2.0,2.0,3.0]
[1.0,3.0,2.0,27.0,0.0,3.0]
[1.0,2.0,2.0,14.0,1.0,1.0]

关于Age的处理，还需要涉及到一个连续属性离散化的问题。

这个具体会在下一篇进行实现。

查看图片附件

分享到：

[Kaggle实战] Titanic 逃生预测 (3) - Age ... | [Kaggle实战] Titanic 逃生预测 (1) - 项 ...

2014-06-01 23:06
浏览 8111
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

【光子晶体】基于matlab FDTD模拟一维光子晶体中光波传输【含Matlab源码 11059期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

【海洋】基于matlab海洋卫星测高数据仿真DEM信息【含Matlab源码 10984期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

【光学】基于matlab蒙特卡洛方法求解辐射传输方程【含Matlab源码 10968期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

log凑字数 12345678910: log凑字数 12345678910

【毕业设计】java+springboot+vue电影评论网站系统设计与实现（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java+springboot+vue电影评论网站系统设计与实现（完整前后端+mysql+说明文档+LunW）.zip

【图像分割】基于matlab方差标准四叉树分解图像分割【含Matlab源码 9827期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

双向全桥LLC谐振变换器与非对称拓扑的双向模型仿真研究：正向LLC与反向LC的变频控制闭环模型在Matlab Simulink及PLECS环境下的应用,双向全桥LLC谐振变换器：非对称拓扑与双向模型的: 双向全桥LLC谐振变换器与非对称拓扑的双向模型仿真研究：正向LLC与反向LC的变频控制闭环模型在Matlab Simulink及PLECS环境下的应用,双向全桥LLC谐振变换器：非对称拓扑与双向模型的Matlab Simulink及PLECS仿真研究,双向全桥LLC谐振变器仿真，非对称拓扑，双向模型正向LLC，反向LC 采用变频控制的闭环模型运行环境包括matlab simulink，plecs等 ~ ,双向全桥LLC谐振变换器仿真; 非对称拓扑; 双向模型; 变频控制; Matlab Simulink; PLECS。,双向全桥LLC谐振变换器仿真研究：非对称拓扑与变频控制模型

Jordan标准型行列互逆方法-程序求解: Jordan标准型行列互逆方法-程序求解

DIN-SQL：分解式上下文学习的文本到SQL转换及自校正: 目前，在复杂任务（如Spider数据集上的文本到SQL转换）中，使用大型语言模型（LLMs）的微调模型和提示方法之间存在显著差距。为了提高LLMs在推理过程中的性能，我们研究了将任务分解为较小子任务的有效性。特别是，我们展示了将生成问题分解为子问题，并将这些子问题的解决方案输入给LLMs，可以显著提高其性能。我们的实验表明，这种方法使三个LLMs的简单少样本性能提高了大约10%，使其准确性接近或超过最先进水平（SOTA）。在Spider数据集的保留测试集中，以执行准确率为衡量标准，最先进水平是79.9，而使用我们方法的新最先进水平为85.3。我们的方法在上下文中学习，比许多经过深度微调的模型高出至少5%。此外，在BIRD基准测试中，我们的方法实现了55.9%的执行准确率，创下了该基准测试保留测试集的新最先进水平

MATLAB-GUI-平台的手势识别.zip: 程序可以参考，非常好的思路建设，完美！

【语音编码】基于matlab语音信号PCM编解码（含前后波形对比 SNR）【含Matlab源码 11159期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

(源码)基于FreeRTOS的ARM926EJS实验系统_2.zip: # 基于FreeRTOS的ARM926EJS实验系统 ## 项目简介本项目将FreeRTOS移植到基于ARM926EJ S CPU的ARM Versatile Platform Baseboard上，当前版本基于FreeRTOS 10.4.0，后续会随FreeRTOS新版本发布而更新。项目处于早期开发阶段，包含基础的演示任务，可用于学习和研究实时操作系统的基本功能与应用。 ## 项目的主要特性和功能 1. FreeRTOS内核移植实现FreeRTOS内核在ARM926EJ S架构上的移植，支持任务管理、信号量、队列、事件标志、互斥量等功能。 2. 中断处理具备中断服务例行程序，能处理中断事件并切换任务。 3. 任务切换有任务切换机制，支持手动切换和定时器中断切换。 4. 定时器管理可进行定时器的创建、启动、停止、查询等操作。 5. 内存管理实现动态内存分配与释放，支持运行时动态操作。

【图像加密解密】基于matlab混沌系统和DNA编码图像分块加密解密（含直方图密钥相关性）【含Matlab源码 9695期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

【车间调度】基于matlab多元宇宙算法MVO求解分布式置换流水车间调度DPFSP【含Matlab源码 6138期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

基于MATLAB Simulink R2015b的三电平中性点钳位（NPC）逆变器高级仿真模型,基于MATLAB Simulink R2015b的三电平中性点钳位（NPC）逆变器高级仿真模型,Thre: 基于MATLAB Simulink R2015b的三电平中性点钳位（NPC）逆变器高级仿真模型,基于MATLAB Simulink R2015b的三电平中性点钳位（NPC）逆变器高级仿真模型,Three_Level_NPC_Inverter：基于MATLAB Simulink的三电平中性点钳位（NPC）逆变器仿真模型。仿真条件：MATLAB Simulink R2015b，拿后前如需转成低版本格式请提前告知，谢谢。 ,核心关键词：Three_Level_NPC_Inverter; MATLAB Simulink; 仿真模型; R2015b版本。,基于MATLAB Simulink的三电平NPC逆变器仿真模型（R2015b版）

【形状检测】形状特征圆和矩形检测（含尺寸）【含Matlab源码 4625期】.md: CSDN Matlab武动乾坤上传的资料均是完整代码运行出的仿真结果图，可见完整代码亲测可用，适合小白； 1、完整的代码内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主或扫描博客文章底部QQ名片； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

【地震】基于matlab两自由度体系非线性的地震响应【含Matlab源码 11062期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

graph-searcher 机器人路径搜索: graph_searcher 机器人路径搜索

【大气波导】基于matlab蒸发波导高度随气海温差变化【含Matlab源码 7575期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

基于Matlab 2018版的三环PI参数自整定永磁同步电机伺服控制仿真模型：FOC矢量控制与PI参数调整的实践指南,好的，根据您提供的文字，我为您提炼出的标题为：永磁同步电机伺服控制仿真：三环P: 基于Matlab 2018版的三环PI参数自整定永磁同步电机伺服控制仿真模型：FOC矢量控制与PI参数调整的实践指南,好的，根据您提供的文字，我为您提炼出的标题为：永磁同步电机伺服控制仿真：三环PI参数自整定Matlab模型构建及应用解析这个标题满足了您的要求，既涵盖了主题“永磁同步电机伺服控制仿真三环PI参数自整定”，又提到了Matlab仿真模型的应用和解析，同时符合字数要求。,永磁同步电机伺服控制仿真三环PI参数自整定永磁同步电机伺服控制仿真三环PI参数自整定 Matlab仿真模型模型基于matlab 2018版本搭建。模型适合伺服控制仿真初学者或工程师，学习电机控制中的PI参数调整问题。模型包含如下内容： 1.FOC矢量控制算法，svpwm调制算法和永磁同步电机模型。 2.三环控制包含位置环、转速环、电流环；其中位置环采用P+前馈的复合控制；转速环采用PI控制；电流环采用PI控制+前馈解耦算法。 3.模型中只需要输入电机的电阻、电感、转动惯量等参数，就可以自动计算PI参数，实现比较好的控制效果。 4.提供相关参考lunwen和说明文档，方便读者进行学习。 ,核心

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理

评论

发表评论

相关推荐

[Lucene] Lucene 4.10 显示分词结果

[Hadoop] 分布式Join : Replicated Join

[Hadoop]使用Hadoop进行ReduceSideJoin

[Hadoop] Hadoop 链式任务 : ChainMapper and ChainReducer的使用

[Hadoop] 练习：使用Hadoop计算两个向量的内积

[Hadoop] TopK的一个简单实现

[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes

[Mahout] 为什么mahout需要sequencefile ?

[Mahout] mahout 0.9 的 seqdirectory 有bug

[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression

[Mahout] Windows + Eclipse 构建mahout运行环境

[Mahout] 第一个小实验：使用GroupLens进行推荐模型的检验

[Mahout] Windows下Mahout单机安装

[Kaggle实战] Titanic 逃生预测 (5) - 使用Dot语言绘制决策树

[Kaggle实战] Titanic 逃生预测 (4) - 决策树建模

[Kaggle实战] Titanic 逃生预测 (3) - Age离散化

[Kaggle实战] Titanic 逃生预测 (1) - 项目起步

Java实现的朴素贝叶斯分类器

使用Java实现的ID3算法

Weka 界面操作实例

最近访客更多访客>>