这次实战的Kaggle比赛,其实只是其中一个没有奖金的公益比赛。
主页: http://www.kaggle.com/c/titanic-gettingStarted
主题是:
Titanic: Machine Learning from Disaster
在比赛之中,官方给出了一些原始的一半的数据作为比赛用的训练集与测试集。另外一半作为官方自己的测试集。最后成绩评定也是会使用官方自己留着的一半数据进行评比。
注意: 有一个取巧的方式,那就是去网上去搜索全部原始数据并依此为基础提交算法。 好吧,我用的是比这个笨的方法:)
在这里介绍一下,我比较擅长的是java,并且也希望使用java完成这次比赛。
如果希望使用Python,可以参考:http://triangleinequality.wordpress.com/2013/09/05/a-complete-guide-to-getting-0-79903-in-kaggles-titanic-competition-with-python/
为了完成这次比赛,首先需要下载官方的数据集。
训练集用Excel打开之后的样子:
下面解释一下训练集之中的数据:
PassengerId | 旅客ID | 这条数据应该没啥用 |
Survived | 是否活下来了,1:yes 0:no | 这个应该是对我们很有用的一个数据 |
Pclass | 旅客等级 1 2 3 分别代表不同的等级 | |
Name | 名字 | |
Sex | 性别 | |
Age | 年龄 | |
SibSp |
有多少兄弟姐妹/配偶同船 Number of Siblings/Spouses Aboard |
|
Parch |
有多少父母/子女同船 Number of Parents/Children Aboard |
|
Ticket |
船票号码? |
|
Fare | 船票收费 | |
Cabin | 所在小屋 | |
Embarked |
登船城市 Port of Embarkation |
C Q S 分别代表不同的城市 |
最后,在打开看了一下训练数据之后,第一反应就是使用决策树来实现预测功能。
下一篇文章将讲诉我是如何进行 数据预处理 的
相关推荐
在本篇【Kaggle实战】中,我们将深入探讨如何使用决策树模型对Titanic生存数据进行预测。Titanic是一个著名的机器学习问题,目标是预测乘客在船沉没时是否存活。这个实战教程将帮助你了解如何处理真实世界的数据集,...
【标题】:kaggle—Titanic_kaggle-titantic预测_ 【描述】:这个项目是关于在Kaggle平台上进行的泰坦尼克号(Titanic)生存预测挑战。它涉及了完整的数据分析流程,包括数据预处理、特征工程、模型训练以及结果...
"kaggle_titanic-master.zip"就是一个这样的例子,它源自著名的Kaggle竞赛,旨在挑战参赛者利用历史数据预测泰坦尼克号乘客的生存情况。这个数据集不仅提供了丰富的实操经验,还让我们有机会接触到真实世界中的预测...
【标题】"Kaggle_Titanic_master" 是一个数据科学项目,主要集中在Kaggle平台上,该平台是全球领先的数据科学和机器学习竞赛的发源地。这个项目的核心是利用泰坦尼克号乘客的数据来预测他们在船沉没时的生存情况。 ...
kaggle-titanic, 关于Kaggle的Titanic教程 kaggle这是一个在Kaggle笔记本上进行竞赛的教程,来自灾难的泰坦尼克机器学习。 这个存储库的目标是为那些兴趣进入数据分析或者使用 python的kaggle科学比赛的数据提供竞争...
【标题】"Kaggle-Titanic---Machine-Learning-from-Disaster" 是一个非常知名的机器学习项目,源自数据科学竞赛平台Kaggle。这个项目的核心是利用历史数据预测泰坦尼克号沉船事件中乘客的生存情况。通过分析这些数据...
《Kaggle Elo 商户类别推荐数据集解析》 在数据科学领域,Kaggle平台上的数据集常常被用于学习和实践。"elo-merchant-category-recommendation"是Kaggle举办的一场竞赛,旨在利用机器学习技术为用户提供最优的商户...
kaggle数据集 gun-violence-data_01-2013_03-2018kaggle数据集 gun-violence-data_01-2013_03-2018
The Rotten Tomatoes movie review dataset包含train.tsv >8M和test.tsv >3M两个文件 kaggle下载地址: ...1 somewhat negative 2 neutral 3 somewhat positive 4 positive
总的来说,"kaggle泰坦尼克数据titanic"是一个涵盖数据预处理、特征工程、模型选择、模型训练、预测和评估等全方位的机器学习实践项目。通过这个项目,初学者可以深入理解机器学习流程,而经验丰富的数据科学家则...
在数据科学领域,Kaggle竞赛是全球顶尖的数据科学家竞技的舞台,而“泰坦尼克号”(Titanic)数据集则是其中的经典之作。这个数据集源于一场真实的历史悲剧,1912年,豪华邮轮泰坦尼克号在首航中撞冰山沉没,导致...
Kaggle M5预测精度2020 背景 资料库包含我的团队对2020年3月2日至6月30日在Kaggle举行的(即M5)的解决方案。请查看我的! 入门 克隆仓库: ...cd {path-to-dir}/Kaggle-M5-Forecasting-Accuracy-2020
kaggle实战案例,赛事课题内容,解决方案汇总,机器学习、人工智能案例参考。 kaggle实战案例,赛事课题内容,解决方案汇总,机器学习、人工智能案例参考。kaggle实战案例,赛事课题内容,解决方案汇总,机器学习、...
Dogs vs. Cats Kaggle猫狗大战数据集
KAGGLE竞赛官方网站上下载下来的数据集,最全kaggle泰坦尼克数据集。欢迎下载。
总的来说,Kaggle的泰坦尼克号挑战是一个理想的入门项目,它涵盖了数据预处理、特征工程、模型选择、训练与验证、预测和结果提交等机器学习的全过程。通过这个案例,你可以深入理解机器学习的工作原理,并提升你的...
【标题】"Kaggle_Titanic-master例程"是一个基于Kaggle竞赛的数据分析和机器学习项目,主要目标是对泰坦尼克号乘客的生存情况做出预测。这个项目旨在教授和实践数据预处理、特征工程以及应用机器学习算法来解决实际...