ARFF文件是Weka默认的储存数据集文件。每个ARFF文件对应一个二维表格。表格的各行是数据集的各实例,各列是数据集的各个属性。
下面是Weka自带的“weather.arff”文件,在Weka安装目录的“data”子目录下可以找到。
需要注意的是,在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF文件的内容。
% ARFF file for the weather data with some numric features
%
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no}
@data
%
% 14 instances
%
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
文件结构
识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。
以“%”开始的行是注释,WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了些“%”开始的行,是没有影响的。
除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。
头信息
数据信息
其他格式转换成ARFF
虽然Weka也支持其他一些格式的文件,但是ARFF格式是支持的最好的。因此有必要在数据处理之前把数据集的格式转换成ARFF。
- 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。
运行WEKA的主程序,在菜单中找到“Simple CLI”模块,它可提供命令行功能。在新窗口的最下方(上方是不能写字的):输入框写上
java weka.core.converters.CSVLoader filename.csv > filename.arff
即可完成转换。
- 在WEKA 3.5中提供了一个“Arff Viewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。
- 进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。
与CSV文件类似。
Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。
接下来把得到的CSV文件按照前述步骤转换为ARFF即可。
在Matlab中的二维表格是一个矩阵,我们通过这条命令把一个矩阵存成CSV格式。
csvwrite('filename',matrixname)
需要注意的是,Matllab给出的CSV文件往往没有属性名(Excel给出的也有可能没有)。而WEKA必须从CSV文件的第一行读取属性名,否则就会把第一行的各属性值读成变量名。因此我们对于Matllab给出的CSV文件需要用文本编辑软件打开,手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致,仍用逗号隔开。
分享到:
相关推荐
ARFF(Attribute-Relation File Format)文件则是Weka用来存储结构化数据的标准格式。本教程将深入讲解如何使用Weka的Java API来生成ARFF文件,主要涉及以下知识点: 1. **ARFF文件格式**: ARFF文件主要用于存储...
matlab默认使用的数据格式是mat,而weka在数据挖掘中经常用到,但其默认格式为arff。利用本代码可以将mat格式数据自动转为arff格式,自动添加数据头信息。能够很好处理高维度数据
"WEKA arff 实验数据集比较全"这个资源集合可能包含了大量的ARFF文件,涵盖了各种数据挖掘实验所需的不同数据集。这些数据集通常源自UCI(University of California, Irvine)机器学习仓库,这是一个著名的公开数据...
这个压缩包文件集合了202个ARFF(Attribute-Relation File Format)数据集,是Weka进行数据预处理、特征选择和算法训练的重要资源。ARFF格式是Weka所特有的,用于存储结构化的数据集,包括属性描述和实例数据。 **...
用于weka初入门学习,银行数据包括600实例,是data-bank.arff 文件,经过csv 处理之后的可经weka使用的文件。-The learn for weka early entry, bank data including 600 instances of the the the data-bank.arff ...
数据集是来源于 University of California, Irvine(UCI)机器学习数据库中的 Pima Indian Diabetes 数据集,总共包含 768 条数据项。...数据集已转arff格式(其实与csv格式差不多可自行修改),可用于weka。
ARFF(Attribute-Relation File Format)格式是一种广泛用于数据挖掘和机器学习领域的文件格式,尤其在使用Weka这样的数据挖掘工具时。这个“arff格式数据集D-H”包含大约200个文件,这些文件可能包含了各种类型的...
2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff ...
ARFF(Attribute-Relation File Format)格式是一种广泛用于数据挖掘和机器学习领域的文件格式,尤其在使用Weka这样的数据挖掘工具时。这个“arff格式数据集I-M”包含大约200个文件,这些文件可能代表不同的数据集,...
2. **加载数据**:使用Weka的`DataSource`类加载ARFF文件,将其转换为`Instances`对象,这是Weka中表示数据集的类。 3. **设置模型**:选择合适的神经网络模型,Weka提供了如MultiLayerPerceptron(多层感知器)等...
Weka几乎包含了所有常见机器学习算法的Java实现,Weka中支持的数据格式主要是arff,虽然weka官网上提供了一些arff文件,但有时仅有这些还不能满足需求,为此,本人搜集各方资料,再加上自己的手工转换,整理出了一个...
DataSource dataSource = new DataSource("your_dataset.arff"); Instances data = dataSource.getDataSet(); data.setClassIndex(data.numAttributes() - 1); // 创建并构建决策树模型 J48 tree = new J48();...
1. **ARFF文件格式**:Weka主要使用ARFF(Attribute-Relation File Format)格式存储数据集,它包含属性描述和实例数据两部分,便于数据预处理和模型训练。 2. **数据预处理**:在使用Weka进行数据挖掘前,通常需要...
通过Weka探索数据 参考: : 数据:weather.nominal 打开文件weather.nominal.arff ... 为Weka创建一个“ Arff数据”版本; 检查是否缺少值? 如果是这样,请报告缺失值的百分比,然后删除包含缺失值的实例。
使用weka,jar函数读取数据arff,代码引用类型如下: import weka.core.Attribute; import weka.core.Instance; import weka.core.Instances; import weka.core.converters.ConverterUtils.DataSource; import ...
Weka支持多种格式的数据,包括ARFF、CSV等。下面是一个读取ARFF文件的示例代码: ```java Instances data = new Instances( new BufferedReader( new FileReader("/some/where/data.arff") ) ); ``` 在读取数据...
在上面的例子中,`ArffLoader` 是用于读取 ARFF 文件的数据源,这是 Weka 支持的数据格式之一。`setFile` 方法用于指定数据文件的位置,`getDataSet` 返回一个 `Instances` 对象,这是 Weka 中表示数据集的基本类。 ...
ARFF(Attribute-Relation File Format)格式是一种广泛用于机器学习和数据挖掘领域的数据存储格式,由Weka(一个流行的开源数据挖掘工具)所支持。它主要用于存储结构化的数据集,包括数值型、分类型和缺失值等不同...
- ***.csv -> .arff**:可以将常见的CSV文件转换为Weka能识别的ARFF格式,以便进行后续分析。 - **txt -> arff**:如果数据是以文本形式存在,可以转换为ARFF格式,这可能需要编写脚本或使用工具完成。 - **Matlab的...