`

如何转换成weka可识别的ARFF格式

    博客分类:
  • weka
阅读更多
摘自:http://blog.csdn.net/chl033/article/details/4837232

若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。
TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
在转换之前,我们需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:
-----------------------------------------------------------
...
|
+- example
     |
     +- class1
     |  |
     |  + file1.txt
     |  |
     |  + file2.txt
     |  |
     |  ...
     |
     +- class2
     |  |
     |  + another_file1.txt
     |  |
     |  + another_file2.txt
     |  |
     |  ...
-----------------------------------------------------------
按照上图所示的目录布局好文本数据后,将example文件夹放置在weka根目录下,我们利用WEKA的命令行界面(Simple CLI)输入以下命令:
java weka.core.converters.TextDirectoryLoader -dir example > example.arff
此时,可以发现在weka根目录下生成了一个example.arff文件,这说明文本数据已经成功转换成了WEKA需要的ARFF文件了。
example.arff文件内容下图所示,从图中可以发现example文件夹下的子文件夹名变成了每个文档的类标记。
-----------------------------------------------------------
@relation D__workspace_weka_example
@attribute text string
@attribute class {class1,class2,class3}
@data
‘文本内容’,class1
‘文本内容’,class3
‘文本内容’,class2
‘文本内容’,class1
‘文本内容’,class3
...
-----------------------------------------------------------
该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改WEKA的源码才能实现对中文文本数据的处理。
分享到:
评论

相关推荐

    weka生成arff文件的简单代码

    通过以上步骤,我们可以使用Weka的Java API从自定义的Java对象生成ARFF文件,这在进行机器学习项目时非常有用,因为它允许我们方便地将数据转换为Weka能够识别的格式。在实际应用中,你可能还需要处理更复杂的数据...

    arff格式数据集T-Z

    ARFF(Attribute-Relation File Format)格式是一种广泛用于机器学习和数据挖掘领域的数据存储格式,由Weka(一个流行的开源数据挖掘工具)所支持。它主要用于存储结构化的数据集,包括数值型、分类型和缺失值等不同...

    python实现txt文件格式转换为arff格式

    要实现txt文件格式转换为arff格式,我们需要使用Python编程语言中的文件读写操作。...需要注意的是,虽然代码实现了一个基本的txt到arff转换,但可能需要根据具体情况进行调整以满足特定的数据格式和要求。

    NSL-KDD数据集arff格式

    ARFF,全称Attribute-Relation File Format,是Weka数据挖掘工具所采用的一种文件格式。它用于存储结构化的数据,包括数值型、分类型以及字符串型的属性。在NSL-KDD数据集中,ARFF格式使得数据可以方便地被数据挖掘...

    基于Weka和matlab平台的多层感知机模式识别实验.pdf

    1. **数据准备**:首先,将鸢尾花数据集(Iris.xlsx)转换为Weka支持的ARFF格式。这一格式包含了数据集的元数据信息,如属性类型、数据范围等。 2. **变量转换**:将分类目标变量转换为名义变量,这是因为MLP模型...

    Weka基础教程V1.1(贵州大学)

    - ***.csv -> .arff**:可以将常见的CSV文件转换为Weka能识别的ARFF格式,以便进行后续分析。 - **txt -> arff**:如果数据是以文本形式存在,可以转换为ARFF格式,这可能需要编写脚本或使用工具完成。 - **Matlab的...

    关于UCI的arff数据

    标题中的“关于UCI的arff数据”意味着这些文件包含了UCI机器学习Repository中的数据,这些数据已经被转换为ARFF格式,方便使用Weka或其他支持ARFF的工具进行分析。 ARFF文件的主要结构包括两部分:数据描述...

    Java调用weka神经网络算法预测股票 代码及数据

    2. **加载数据**:使用Weka的`DataSource`类加载ARFF文件,将其转换为`Instances`对象,这是Weka中表示数据集的类。 3. **设置模型**:选择合适的神经网络模型,Weka提供了如MultiLayerPerceptron(多层感知器)等...

    arff2csv:将提供的 ARFF 文件转换为 CSV 文件并返回 CSV 文件名-matlab开发

    这涉及读取文件内容,识别元数据部分(如属性定义)和数据部分,然后将这些内容转换为相应的CSV格式。在处理过程中,程序可能需要处理不同类型的属性,如数值、字符串和日期,以及处理缺失值和异常值的方法。 ARFF...

    weka使用教程

    数据清洁是指对数据中的错误或缺失值进行处理,而数据转换是指将数据转换为 WEKA 可以识别的格式。数据缩放是指将数据缩放到一定的范围,以便于 WEKA 的算法学习。 关联规则(购物篮分析) 关联规则是指发现数据中...

    weka完整中文教程

    在使用Weka之前,需要将原始数据准备好,并转换成ARFF格式。这个过程通常涉及数据清洗、格式化和转换,以确保数据集适合输入到Weka中进行进一步的数据挖掘分析。 ### 属性选择 在数据挖掘任务中,选择合适的属性...

    weka详细使用文档实例

    Weka支持的数据格式为ARFF(Attribute-Relation File Format),这是一种ASCII文本格式的文件,易于阅读和编辑。ARFF文件包含了数据集的头信息和数据信息两大部分。头信息部分定义了数据集的关系名称和属性类型,...

    使用weka做数据挖掘开发

    预测阶段,我们需要将待预测的数据转换成Weka能识别的格式,然后调用已训练模型的`classifyInstance()`方法进行预测。预测结果可能需要进一步处理,如转化为用户友好的形式。 6、总结 使用Weka进行数据挖掘开发,...

    Weka数据挖掘软件简介

    此外,Weka也支持读取CSV格式的数据,并能自动将其转换为ARFF格式。 **3. 使用Weka进行数据分析** 使用Weka进行数据分析通常包括以下步骤: 1. **加载数据**:导入ARFF或CSV格式的数据文件到Weka工作台。 2. **...

    weka经典训练集

    ARFF是Attribute-Relation File Format的缩写,是Weka专用的一种文件格式,用于存储结构化的数据集,包含属性和实例信息。bank_data.arff可能涉及到银行客户的交易数据,而wine.arff可能是葡萄酒的品质数据,包含...

    MATLAB中的weka工具包

    MATLAB中的Weka工具包,也被称为mweka,是一个集成的数据挖掘和机器学习平台,它将开源的Weka(Waikato Environment for Knowledge Analysis)框架与MATLAB环境相结合,为用户提供了强大的数据分析和模式识别功能。...

Global site tag (gtag.js) - Google Analytics