上一篇文章简要介绍了比赛的主题与将会使用到的数据集。
这一篇文章的主要任务是完成数据挖掘的第一步: 数据清理
完成数据清理的第一步,就是先把数据读到内存之中。在这里,我使用的是OpenCsv. 可以到这里下载。
OpenCSV的使用可以参考: http://opencsv.sourceforge.net/#how-to-read
其中我对比了SuperCSV 以及其他的,发现他们主要花精力在跟Bean mapping 上。暂时感觉不实用~
可能后面会换一个也说不定。
下面是我读取数据集的方法:
/** * 从CSV文件之中读取数据 * @param csv 存放数据的csv文件 * @param skipHeader 是否略过表头 * @return 数据集 */ public static List<String[]> readDataFromCSV(File csv, Boolean skipHeader) { List<String[]> myEntries = new ArrayList<String[]>();; try { CSVReader reader = new CSVReader(new FileReader(csv)); myEntries = reader.readAll(); if(skipHeader) { myEntries.remove(0); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return myEntries; }
参考百度百科, 预处理包括如下几个步骤:
(1) 数据清理:填写缺失值,光滑噪声数据等等。 我们待会会首先清理数据
(2) 数据集成:将多个数据源合成同一个数据来源。在这里我们的来源只有1个csv文件,因此这一步免了~
(3) 数据变换:平滑聚集,数据概化等等。 我们将会对Age进行处理,将连续数据离散化。
(4) 数据规约: 目的是减小数据量,同时又不影响结果。在此我们的数据也就不到1000行~ 也不需要了~
好,先说说数据清理。
在我们的数据集之中,可以通过Excel来发现有哪些数据是缺失的。
首先给各个列加一个Filter
之后在各个列的Filter下拉列表之后,如果有Blank选项,则这一列就有空值。如下图所示的Age列
最终结果:Age, Cabin, Embarked字段有空值需要填充。
对于Age,我们使用中位数(Median)进行填充,
对于Cabin,由于这一列的值跟ID一样,几乎完全不同,而且缺失的值又非常多,因此这一列就略过不用。
对于Embarked,缺失的值也是用“Unknown”进行填充。为了简单起见,偶直接在Excel里面将缺失值写上“U”了。哈哈~
为了将Age进行平均值填充,同时也需要将原来的String类型的值映射成数值型,在此使用Apache common Math 进行矩阵计算。
在进行矩阵计算之前,我们先人工分析一下Fare跟PClass的关系。理论上,船位等级越高,票价也越高。我们需要画一个图进行验证。
如果他们具有很强的线性关系,我们就应该将其中一个去除,以免浪费算力,甚至产生overfitting的情况
Java之中没有太好的画图工具,就使用JFreeChart吧~
[话说,简单的数值分析,Python R 确实要比Java方便多了]
先看看结果:
在上面的图之中,横轴为旅客ID, 纵轴为Ration=Fare/Pclass
可以看出,对于Pclass=1的旅客,票价方差比较大,对于Pclass=2 or 3的旅客来说,分布/方差就小得多了。
那就让我们再看一张将P=1去除的散点图:
发现 P3 跟P2的分布其实蛮有规律的。比如P2的集中在12.5跟5.0两条线,而P3的基本上就在2.5这条线了~
因此,目测,Fare的影响不是非常明显。
为了简单起见,暂时就将Fare这一列排除出去吧。
下面我们来看看SibSp这一列。
先看看原始数据吧:
0-609.0 1-210.0 2-29.0 3-17.0 4-19.0 5-6.0 6-1.0 7-1.0 8-8.0 9-1.0
其中6 7 9 的原始数据都是0,为了处理方便,给全部数据初始化的时候都设置成1
明显,这是一个指数分布。0对应的数量超过了其他所有加起来的总和。这在最后处理的时候,会对结果造成非常明显的影响。因此,为了使得最后的处理比较准确,需要将≥2的数据进行聚集。并且对最后的数据进行log计算。计算结果如下:
结果还不错,呈线性啦!
对于Parch一列,总共也有6个值,但是整体上,跟SibSp的值呈线性关系,因此也暂时将这一列忽略!
现在我们回到前面跳过去的,给Age的缺失值用中位数填充
这部分具体看code吧:
public static double[][] dataClean(List<String[]> list) { double[][] dataMatrix = new double[list.size()][6]; List<Double> ageList = new ArrayList<Double>(); for(int i = 0; i < list.size(); i++){ int colIndex = 0; String[] arr = list.get(i); // Survived dataMatrix[i][colIndex++] = Integer.parseInt(arr[1]); // Pclass dataMatrix[i][colIndex++] = Integer.parseInt(arr[2]); // Sex if(arr[4].equals("male")) { dataMatrix[i][colIndex++] = 1; } else { dataMatrix[i][colIndex++] = 2; } // Age if(arr[5].length() == 0) { dataMatrix[i][colIndex++] = -1; // 首先将缺失值设置为-1 } else { dataMatrix[i][colIndex++] = Double.parseDouble(arr[5]); ageList.add(Double.parseDouble(arr[5])); } // SibSp 将值大于2的归集为同一类 if(Integer.parseInt(arr[6]) >= 2 ) { dataMatrix[i][colIndex++] = 2; } else { dataMatrix[i][colIndex++] = Integer.parseInt(arr[6]); } // Embarked C:1 Q:2 S:3 U:4 // 原始数据之中已经手动的将缺失值补充为U,不是CQS的值,也用4来代替 String embarked = arr[11]; if(embarked.equals("C")) { dataMatrix[i][colIndex++] = 1; } else if(embarked.equals("Q")) { dataMatrix[i][colIndex++] = 2; } else if(embarked.equals("S")) { dataMatrix[i][colIndex++] = 3; } else if(embarked.equals("U")) { dataMatrix[i][colIndex++] = 4; } else { dataMatrix[i][colIndex++] = 4; } } // 将Age=-1的值变成中位数 double[] ageArr = new double[ageList.size()]; for(int i = 0; i < ageArr.length; i++) { ageArr[i] = ageList.get(i); } double median = StatUtils.percentile(ageArr, 50.0); //中位数 for(int i = 0; i < dataMatrix.length; i++) { if(dataMatrix[i][3] == -1) { dataMatrix[i][3] = median; } System.out.println(dataMatrix[i][3]); } return dataMatrix; }
处理的最终数据矩阵如下:(前10行)
[0.0,3.0,1.0,22.0,1.0,3.0] [1.0,1.0,2.0,38.0,1.0,1.0] [1.0,3.0,2.0,26.0,0.0,3.0] [1.0,1.0,2.0,35.0,1.0,3.0] [0.0,3.0,1.0,35.0,0.0,3.0] [0.0,3.0,1.0,28.0,0.0,2.0] [0.0,1.0,1.0,54.0,0.0,3.0] [0.0,3.0,1.0,2.0,2.0,3.0] [1.0,3.0,2.0,27.0,0.0,3.0] [1.0,2.0,2.0,14.0,1.0,1.0]
关于Age的处理,还需要涉及到一个 连续属性离散化的问题。
这个具体会在下一篇进行实现。
相关推荐
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
log凑字数 12345678910
【毕业设计】java+springboot+vue电影评论网站系统设计与实现(完整前后端+mysql+说明文档+LunW).zip
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
双向全桥LLC谐振变换器与非对称拓扑的双向模型仿真研究:正向LLC与反向LC的变频控制闭环模型在Matlab Simulink及PLECS环境下的应用,双向全桥LLC谐振变换器:非对称拓扑与双向模型的Matlab Simulink及PLECS仿真研究,双向全桥LLC谐振变器仿真,非对称拓扑,双向模型 正向LLC,反向LC 采用变频控制的闭环模型 运行环境包括matlab simulink,plecs等 ~ ,双向全桥LLC谐振变换器仿真; 非对称拓扑; 双向模型; 变频控制; Matlab Simulink; PLECS。,双向全桥LLC谐振变换器仿真研究:非对称拓扑与变频控制模型
Jordan标准型行列互逆方法-程序求解
目前,在复杂任务(如Spider数据集上的文本到SQL转换)中,使用大型语言模型(LLMs)的微调模型和提示方法之间存在显著差距。为了提高LLMs在推理过程中的性能,我们研究了将任务分解为较小子任务的有效性。特别是,我们展示了将生成问题分解为子问题,并将这些子问题的解决方案输入给LLMs,可以显著提高其性能。我们的实验表明,这种方法使三个LLMs的简单少样本性能提高了大约10%,使其准确性接近或超过最先进水平(SOTA)。在Spider数据集的保留测试集中,以执行准确率为衡量标准,最先进水平是79.9,而使用我们方法的新最先进水平为85.3。我们的方法在上下文中学习,比许多经过深度微调的模型高出至少5%。此外,在BIRD基准测试中,我们的方法实现了55.9%的执行准确率,创下了该基准测试保留测试集的新最先进水平
程序可以参考,非常好的思路建设,完美!
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
# 基于FreeRTOS的ARM926EJS实验系统 ## 项目简介 本项目将FreeRTOS移植到基于ARM926EJ S CPU的ARM Versatile Platform Baseboard上,当前版本基于FreeRTOS 10.4.0,后续会随FreeRTOS新版本发布而更新。项目处于早期开发阶段,包含基础的演示任务,可用于学习和研究实时操作系统的基本功能与应用。 ## 项目的主要特性和功能 1. FreeRTOS内核移植实现FreeRTOS内核在ARM926EJ S架构上的移植,支持任务管理、信号量、队列、事件标志、互斥量等功能。 2. 中断处理具备中断服务例行程序,能处理中断事件并切换任务。 3. 任务切换有任务切换机制,支持手动切换和定时器中断切换。 4. 定时器管理可进行定时器的创建、启动、停止、查询等操作。 5. 内存管理实现动态内存分配与释放,支持运行时动态操作。
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
基于MATLAB Simulink R2015b的三电平中性点钳位(NPC)逆变器高级仿真模型,基于MATLAB Simulink R2015b的三电平中性点钳位(NPC)逆变器高级仿真模型,Three_Level_NPC_Inverter:基于MATLAB Simulink的三电平中性点钳位(NPC)逆变器仿真模型。 仿真条件:MATLAB Simulink R2015b,拿后前如需转成低版本格式请提前告知,谢谢。 ,核心关键词:Three_Level_NPC_Inverter; MATLAB Simulink; 仿真模型; R2015b版本。,基于MATLAB Simulink的三电平NPC逆变器仿真模型(R2015b版)
CSDN Matlab武动乾坤上传的资料均是完整代码运行出的仿真结果图,可见完整代码亲测可用,适合小白; 1、完整的代码内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主或扫描博客文章底部QQ名片; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
graph_searcher 机器人路径搜索
海神之光上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
基于Matlab 2018版的三环PI参数自整定永磁同步电机伺服控制仿真模型:FOC矢量控制与PI参数调整的实践指南,好的,根据您提供的文字,我为您提炼出的标题为: 永磁同步电机伺服控制仿真:三环PI参数自整定Matlab模型构建及应用解析 这个标题满足了您的要求,既涵盖了主题“永磁同步电机伺服控制仿真三环PI参数自整定”,又提到了Matlab仿真模型的应用和解析,同时符合字数要求。,永磁同步电机伺服控制仿真三环PI参数自整定 永磁同步电机伺服控制仿真三环PI参数自整定 Matlab仿真模型 模型基于matlab 2018版本搭建。 模型适合伺服控制仿真初学者或工程师,学习电机控制中的PI参数调整问题。 模型包含如下内容: 1.FOC矢量控制算法,svpwm调制算法和永磁同步电机模型。 2.三环控制包含位置环、转速环、电流环;其中位置环采用P+前馈的复合控制;转速环采用PI控制;电流环采用PI控制+前馈解耦算法。 3.模型中只需要输入电机的电阻、电感、转动惯量等参数,就可以自动计算PI参数,实现比较好的控制效果。 4.提供相关参考lunwen和说明文档,方便读者进行学习。 ,核心