up-sampling:
SMOTE algorithm,over-sampled by creating ``synthetic'' examples rather than by over-sampling with replacement.
Weka supervised SMOTE filter
两个参数:
- nearestNeighbors:how many nearest neighbor instances (surrounding the currently considered instance) are used to build an inbetween synthetic instance. 默认取值5.
- percentage.how many synthetic instances are created based on the number of the class with less instances. 默认值100,假设minority class有25个样本,则25个新样本将会根据nearest Neighbors来合成,此时minority class的样本数变成了50.
down-sampling
The majority class is under-sampled by randomly removing samples from the majority class population until the minority class becomes some specified percentage of the majority class.
Weka supervised SpreadSubsample filter
maxCount:可以取minority class的样本数量 n。
如果 maxCount < n: 则正负例的样本数量都减少到maxCount
如果 maxCount > n: 则minority class的样本数量 n不变,majority class的样本数量减少到maxCount
Instances train = DataSource
.read(path);
train.setClassIndex(rawins.numAttributes() - 1);
weka.filters.supervised.instance.SpreadSubsample sps = new SpreadSubsample();
sps.setMaxCount(n); //minority class的样本数量 n
sps.setInputFormat(train);
Instances ins = sps.useFilter(train, sps);
分享到:
相关推荐
全称为新西兰怀卡托智能分析环境,用JAVA实现数据挖掘的各种技术,包括分类,聚类,关联规则等
WEKA 的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时 weka 也是新西兰的一种鸟名,而 WEKA 的主要开发者也来自新西兰。WEKA 作为一个公开的数据挖掘工作平台,集合了大量能承担...
**Weka 3-6-1 数据挖掘工具详解** Weka 是一款强大的开源数据挖掘工具,主要用于数据分析和机器学习任务。这个版本号为 3-6-1 的版本是在 Windows 操作系统上运行的,提供了便捷的安装方式,只需解压后点击执行文件...
Java weka包,提供arff文件操作和诸多聚类分类算法等。 其实网上有很多相关的教程,从如何下载weka包,到如何使用,都有很详细的说明,这里上传上来以方便使用。
weka3.84版,数据挖掘很好的工具。需要的可以下载使用。
weka-3-7-12
**Weka:强大的数据挖掘与机器学习工具** Weka,全称为Waikato Environment for Knowledge Analysis,是一款由新西兰怀卡托大学开发的开源数据挖掘和机器学习软件。这个软件包,即Weka-3-6.zip,包含了丰富的算法库...
weka工具,JAVA环境下的机器学习(machine learning)以及数据挖掘(data minining)软件,很好用,很强大的~
weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。Weka is a collection of machine learning...
Weka 是一个强大的数据挖掘和机器学习工具,主要用于教学、研究和工业应用。这个压缩包文件 "weka-3-8-4.rar" 包含的是 Weka 的一个特定版本,即版本 3.8.4,适配于 Azul Zulu JDK 的 Windows 版本。Azul Zulu 是一...
weka 3-4-3
这是个数据挖掘常用的工具 能使你进行数据分析的效率显著提高 并且简单易用
weka-3-7-0可执行文件 用于数据挖掘 含有聚类,分类等功能
weka-3-8-5-azul-zulu-windows
weka-3-8-5-azul-zulu-windows.exe
数据挖掘 weka 3-6-7 安装文件
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine ...
weka 3-8的全部源码,Java的jar包,只需要用解压工具解压即可找到里边的源码(src文件敬夹下)
本文将详细介绍Weka 3.7.9jre软件、LibSVM库以及WL-SVM(Weighted Linear Support Vector Machine)的使用和集成。Weka是一款强大的数据挖掘工具,广泛应用于机器学习和数据挖掘领域。LibSVM则是一个高效、可扩展的...
**数据挖掘开源工具Weka 3-6-1详解** Weka,全称为Waikato Environment for Knowledge Analysis,是新西兰怀卡托大学开发的一款强大的数据挖掘和机器学习工具,广泛应用于学术研究和商业分析。Weka是开源软件,基于...