上一篇文章简要介绍了比赛的主题与将会使用到的数据集。
这一篇文章的主要任务是完成数据挖掘的第一步: 数据清理
完成数据清理的第一步,就是先把数据读到内存之中。在这里,我使用的是OpenCsv. 可以到这里下载。
OpenCSV的使用可以参考: http://opencsv.sourceforge.net/#how-to-read
其中我对比了SuperCSV 以及其他的,发现他们主要花精力在跟Bean mapping 上。暂时感觉不实用~
可能后面会换一个也说不定。
下面是我读取数据集的方法:
/** * 从CSV文件之中读取数据 * @param csv 存放数据的csv文件 * @param skipHeader 是否略过表头 * @return 数据集 */ public static List<String[]> readDataFromCSV(File csv, Boolean skipHeader) { List<String[]> myEntries = new ArrayList<String[]>();; try { CSVReader reader = new CSVReader(new FileReader(csv)); myEntries = reader.readAll(); if(skipHeader) { myEntries.remove(0); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return myEntries; }
参考百度百科, 预处理包括如下几个步骤:
(1) 数据清理:填写缺失值,光滑噪声数据等等。 我们待会会首先清理数据
(2) 数据集成:将多个数据源合成同一个数据来源。在这里我们的来源只有1个csv文件,因此这一步免了~
(3) 数据变换:平滑聚集,数据概化等等。 我们将会对Age进行处理,将连续数据离散化。
(4) 数据规约: 目的是减小数据量,同时又不影响结果。在此我们的数据也就不到1000行~ 也不需要了~
好,先说说数据清理。
在我们的数据集之中,可以通过Excel来发现有哪些数据是缺失的。
首先给各个列加一个Filter
之后在各个列的Filter下拉列表之后,如果有Blank选项,则这一列就有空值。如下图所示的Age列
最终结果:Age, Cabin, Embarked字段有空值需要填充。
对于Age,我们使用中位数(Median)进行填充,
对于Cabin,由于这一列的值跟ID一样,几乎完全不同,而且缺失的值又非常多,因此这一列就略过不用。
对于Embarked,缺失的值也是用“Unknown”进行填充。为了简单起见,偶直接在Excel里面将缺失值写上“U”了。哈哈~
为了将Age进行平均值填充,同时也需要将原来的String类型的值映射成数值型,在此使用Apache common Math 进行矩阵计算。
在进行矩阵计算之前,我们先人工分析一下Fare跟PClass的关系。理论上,船位等级越高,票价也越高。我们需要画一个图进行验证。
如果他们具有很强的线性关系,我们就应该将其中一个去除,以免浪费算力,甚至产生overfitting的情况
Java之中没有太好的画图工具,就使用JFreeChart吧~
[话说,简单的数值分析,Python R 确实要比Java方便多了]
先看看结果:
在上面的图之中,横轴为旅客ID, 纵轴为Ration=Fare/Pclass
可以看出,对于Pclass=1的旅客,票价方差比较大,对于Pclass=2 or 3的旅客来说,分布/方差就小得多了。
那就让我们再看一张将P=1去除的散点图:
发现 P3 跟P2的分布其实蛮有规律的。比如P2的集中在12.5跟5.0两条线,而P3的基本上就在2.5这条线了~
因此,目测,Fare的影响不是非常明显。
为了简单起见,暂时就将Fare这一列排除出去吧。
下面我们来看看SibSp这一列。
先看看原始数据吧:
0-609.0 1-210.0 2-29.0 3-17.0 4-19.0 5-6.0 6-1.0 7-1.0 8-8.0 9-1.0
其中6 7 9 的原始数据都是0,为了处理方便,给全部数据初始化的时候都设置成1
明显,这是一个指数分布。0对应的数量超过了其他所有加起来的总和。这在最后处理的时候,会对结果造成非常明显的影响。因此,为了使得最后的处理比较准确,需要将≥2的数据进行聚集。并且对最后的数据进行log计算。计算结果如下:
结果还不错,呈线性啦!
对于Parch一列,总共也有6个值,但是整体上,跟SibSp的值呈线性关系,因此也暂时将这一列忽略!
现在我们回到前面跳过去的,给Age的缺失值用中位数填充
这部分具体看code吧:
public static double[][] dataClean(List<String[]> list) { double[][] dataMatrix = new double[list.size()][6]; List<Double> ageList = new ArrayList<Double>(); for(int i = 0; i < list.size(); i++){ int colIndex = 0; String[] arr = list.get(i); // Survived dataMatrix[i][colIndex++] = Integer.parseInt(arr[1]); // Pclass dataMatrix[i][colIndex++] = Integer.parseInt(arr[2]); // Sex if(arr[4].equals("male")) { dataMatrix[i][colIndex++] = 1; } else { dataMatrix[i][colIndex++] = 2; } // Age if(arr[5].length() == 0) { dataMatrix[i][colIndex++] = -1; // 首先将缺失值设置为-1 } else { dataMatrix[i][colIndex++] = Double.parseDouble(arr[5]); ageList.add(Double.parseDouble(arr[5])); } // SibSp 将值大于2的归集为同一类 if(Integer.parseInt(arr[6]) >= 2 ) { dataMatrix[i][colIndex++] = 2; } else { dataMatrix[i][colIndex++] = Integer.parseInt(arr[6]); } // Embarked C:1 Q:2 S:3 U:4 // 原始数据之中已经手动的将缺失值补充为U,不是CQS的值,也用4来代替 String embarked = arr[11]; if(embarked.equals("C")) { dataMatrix[i][colIndex++] = 1; } else if(embarked.equals("Q")) { dataMatrix[i][colIndex++] = 2; } else if(embarked.equals("S")) { dataMatrix[i][colIndex++] = 3; } else if(embarked.equals("U")) { dataMatrix[i][colIndex++] = 4; } else { dataMatrix[i][colIndex++] = 4; } } // 将Age=-1的值变成中位数 double[] ageArr = new double[ageList.size()]; for(int i = 0; i < ageArr.length; i++) { ageArr[i] = ageList.get(i); } double median = StatUtils.percentile(ageArr, 50.0); //中位数 for(int i = 0; i < dataMatrix.length; i++) { if(dataMatrix[i][3] == -1) { dataMatrix[i][3] = median; } System.out.println(dataMatrix[i][3]); } return dataMatrix; }
处理的最终数据矩阵如下:(前10行)
[0.0,3.0,1.0,22.0,1.0,3.0] [1.0,1.0,2.0,38.0,1.0,1.0] [1.0,3.0,2.0,26.0,0.0,3.0] [1.0,1.0,2.0,35.0,1.0,3.0] [0.0,3.0,1.0,35.0,0.0,3.0] [0.0,3.0,1.0,28.0,0.0,2.0] [0.0,1.0,1.0,54.0,0.0,3.0] [0.0,3.0,1.0,2.0,2.0,3.0] [1.0,3.0,2.0,27.0,0.0,3.0] [1.0,2.0,2.0,14.0,1.0,1.0]
关于Age的处理,还需要涉及到一个 连续属性离散化的问题。
这个具体会在下一篇进行实现。
相关推荐
在本篇【Kaggle实战】中,我们将深入探讨如何使用决策树模型对Titanic生存数据进行预测。Titanic是一个著名的机器学习问题,目标是预测乘客在船沉没时是否存活。这个实战教程将帮助你了解如何处理真实世界的数据集,...
【标题】:kaggle—Titanic_kaggle-titantic预测_ 【描述】:这个项目是关于在Kaggle平台上进行的泰坦尼克号(Titanic)生存预测挑战。它涉及了完整的数据分析流程,包括数据预处理、特征工程、模型训练以及结果...
"kaggle_titanic-master.zip"就是一个这样的例子,它源自著名的Kaggle竞赛,旨在挑战参赛者利用历史数据预测泰坦尼克号乘客的生存情况。这个数据集不仅提供了丰富的实操经验,还让我们有机会接触到真实世界中的预测...
《Kaggle Elo 商户类别推荐数据集解析》 在数据科学领域,Kaggle平台上的数据集常常被用于学习和实践。"elo-merchant-category-recommendation"是Kaggle举办的一场竞赛,旨在利用机器学习技术为用户提供最优的商户...
【标题】"Kaggle_Titanic_master" 是一个数据科学项目,主要集中在Kaggle平台上,该平台是全球领先的数据科学和机器学习竞赛的发源地。这个项目的核心是利用泰坦尼克号乘客的数据来预测他们在船沉没时的生存情况。 ...
KAGGLE竞赛官方网站上下载下来的数据集,最全kaggle泰坦尼克数据集。欢迎下载。
kaggle数据集 gun-violence-data_01-2013_03-2018kaggle数据集 gun-violence-data_01-2013_03-2018
kaggle-titanic, 关于Kaggle的Titanic教程 kaggle这是一个在Kaggle笔记本上进行竞赛的教程,来自灾难的泰坦尼克机器学习。 这个存储库的目标是为那些兴趣进入数据分析或者使用 python的kaggle科学比赛的数据提供竞争...
【标题】"Kaggle-Titanic---Machine-Learning-from-Disaster" 是一个非常知名的机器学习项目,源自数据科学竞赛平台Kaggle。这个项目的核心是利用历史数据预测泰坦尼克号沉船事件中乘客的生存情况。通过分析这些数据...
【标题】"kaggle泰坦尼克数据titanic"所涉及的知识点主要围绕着一个经典的数据科学竞赛——泰坦尼克号生存预测。这个数据集是数据科学家和机器学习爱好者们常用的入门级案例,用于练习数据预处理、特征工程以及模型...
《泰坦尼克号数据集:探索与机器...总结来说,“泰坦尼克号”数据集提供了一个深入学习数据分析和机器学习实战的好机会,涵盖了数据预处理、特征工程、模型训练和评估等多个环节,对于提升数据科学技能具有极高的价值。
总之,参与《实战Kaggle比赛:房价预测》不仅能锻炼我们的数据处理、建模和优化技能,还能让我们深入了解房地产市场的复杂性。通过这个数据集,我们可以学习到如何从数据中提取有价值的信息,以及如何构建准确的预测...
总的来说,Kaggle的泰坦尼克号挑战是一个理想的入门项目,它涵盖了数据预处理、特征工程、模型选择、训练与验证、预测和结果提交等机器学习的全过程。通过这个案例,你可以深入理解机器学习的工作原理,并提升你的...
1. 数据预处理:数据集中存在缺失值,例如年龄(Age)和船舱(Cabin)信息不完整,我们需要用合适的策略填充这些空缺,如平均值、中位数或者使用其他特征进行预测。 2. 特征工程:将非数值特征(如性别和船票等级)...
数据预处理步骤可能包括调整图像大小、灰度化、归一化以及对图像进行标准化,以确保输入到模型的一致性。 2. **数据增强**: 在训练深度学习模型时,数据增强是一个常用的技术,它通过随机变换增加数据多样性,...
本数据集是Kaggle上的经典比赛——“泰坦尼克号”(Titanic)生存预测挑战。该比赛的目标是根据乘客的信息,预测他们在泰坦尼克号沉船事故中是否幸存。 【描述】:这个数据集是Kaggle官方提供的,通常需要一定积分...
The Rotten Tomatoes movie review dataset包含train.tsv >8M和test.tsv >3M两个文件 kaggle下载地址: ...2 neutral 3 somewhat positive 4 positive
数据特征工程、各种机器学习回归模型、回归数据预处理 数据准备 数据来源是房价,来自kaggle练习数据集 train.csv训练集,test.csv预测集,sample_submission.csv预测输出样例文件