WEKA将英文文本数据集转换成ARFF格式 - - ITeye博客

`

forever1220

浏览: 33462 次

最近访客更多访客>>

minxiaomin

Jm8320933

wojiazaiyugang

kzmaker

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

WEKA将英文文本数据集转换成ARFF格式

博客分类：

weka

阅读更多

摘自：http://blog.163.com/jiayouweijiewj@126/blog/static/1712321772011113102710492/

利用Weka转化英文文本数据需要用到两个工具：TextDirectoryToArff和TextDirectoryLoader。
TextDirectoryToArff是一个JAVA类（Class），它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器（Converter），它是基于TextDirectoryToArff类的，并且处于weka.core.converters包中。
首先，转换之前，需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局：一个文件夹自己命名（例如：20news），其中一类一个文件夹，文件夹名字是类标签，每类文件夹里一篇文档是一个文件。

其次，将文件夹（20news）放置在weka根目录下，利用Weka的命令行界面（Simple CLI）输入以下命令：
java weka.core.converters.TextDirectoryLoader -dir 20news > 20news.arff

之后会在Weka根目录下生成了一个20news.arff文件，这说明文本数据已经成功地转换成了Weka需要的ARFF文件。
从20news.arff文件内容可以发现20news文件夹下的子文件夹名变成了每个文档的类标记。

该方法对于中文文本数据不适用，生成的ARFF中的中文会变成乱码，需要修改Weka的源码才能实现对中文文本数据的处理。

分享到：

[转] 有关weka数据格式 | Libsvm使用心得

2014-06-22 22:09
浏览 2265
评论(0)
分类:非技术
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

UCI数据集（arff格式+csv格式）: ARFF格式是Weka数据挖掘工具所使用的标准格式，它以文本方式存储数据，包含两部分：描述部分和实例部分。描述部分定义了属性（特征）的名字和类型，实例部分则列出了每个样本的数据值。ARFF文件可以包含数值型、标称...

weka软件最全数据集: 除了上述特定主题的数据集，Weka还包含许多其他类型的数据，如金融市场数据、文本分类数据、社交网络数据等。这些数据集可用于执行各种机器学习任务，如分类、回归、聚类、关联规则学习等。通过Weka，用户可以探索...

weka生成arff文件的简单代码: 通过以上步骤，我们可以使用Weka的Java API从自定义的Java对象生成ARFF文件，这在进行机器学习项目时非常有用，因为它允许我们方便地将数据转换为Weka能够识别的格式。在实际应用中，你可能还需要处理更复杂的数据...

关于UCI的arff数据: 作者提供的ARFF格式数据集，解决了这个问题，使得研究人员可以直接下载并使用这些已经转换好的数据，无需自己进行格式转换，大大简化了数据预处理步骤。标签“UCI arff数据”明确了这些文件的来源和格式，表明它们...

python 利用pandas将arff文件转csv文件的方法: ARFF 文件是一种由 Weka 软件开发团队设计的文本文件格式，用于存储表格型数据。它由两部分组成：关系声明和属性定义。数据部分由实际数据构成，每一行代表一条记录，每个字段之间用逗号分隔。 #### 三、转换步骤...

WEKA使用教程简介数据格式数据准备分类与回归聚类分析: ARFF文件是一种文本文件，用于存储结构化的数据集，包括属性（特征）和实例（样本）。每个属性都有一个名称和数据类型，如数值型、字符串型或离散型。实例则是一组属性值的集合，通常以行的形式表示。WEKA也支持读取...

weka完整中文教程: 在使用Weka之前，需要将原始数据准备好，并转换成ARFF格式。这个过程通常涉及数据清洗、格式化和转换，以确保数据集适合输入到Weka中进行进一步的数据挖掘分析。 ### 属性选择在数据挖掘任务中，选择合适的属性...

数据挖掘工具-weka使用说明: Weka处理的数据集是一个二维的表格，其存储数据的格式是ARFF（Attribute-Relation File Format）文件，这是一种ASCII文本文件。整个ARFF文件可以分为两个部分：头信息（Head information）和数据信息（Data ...

weka使用中文教程: WEKA 所处理的数据集是一个二维的表格，称作一个实例（Instance），相当于统计学中的一个样本，或者数据库中的一个记录。竖行称作一个属性（Attribute），相当于统计学中的一个变量，或者数据库中的一个字段。WEKA ...

数据挖掘WEKA实验报告.pdf: 一个表格，或者叫数据集，在 WEKA 看来，呈现了属性之间的一种关系（Relation）。知识点七: WEKA 支持的文件格式 WEKA 支持多种文件格式，包括 ARFF、CSV 等。用户可以通过 filters 对数据进行预处理，并将其转换...

WEKA入门教程以及所用的数据集大全: **WEKA入门教程详解及数据集介绍** **一、WEKA简介** WEKA，全称为Waikato Environment for Knowledge Analysis，是由新西兰怀卡托大学开发的一款强大的数据挖掘工具。它是一个开源软件，提供了多种机器学习算法和...

weka源码解析 instances类: 在Weka中，数据集通常以ARFF文件格式存储，该文件格式是一种简单的文本格式，易于阅读和编写。 ##### 2.2 主要方法 `Instances`类提供了一系列方法来操作数据集： - **读取数据**：通过构造函数或`read()`方法从...

Weka基础教程V1.1(贵州大学): - ***.csv -> .arff**：可以将常见的CSV文件转换为Weka能识别的ARFF格式，以便进行后续分析。 - **txt -> arff**：如果数据是以文本形式存在，可以转换为ARFF格式，这可能需要编写脚本或使用工具完成。 - **Matlab的...

weka使用教程: WEKA 所处理的数据集是一个二维的表格，每一行称作一个实例（Instance），每一列称作一个属性（Attribute）。WEKA 存储数据的格式是 ARFF（Attribute-Relation File Format）文件，该文件是一种 ASCII 文本文件。 ...

Weka数据挖掘软件简介: 此外，Weka也支持读取CSV格式的数据，并能自动将其转换为ARFF格式。 **3. 使用Weka进行数据分析** 使用Weka进行数据分析通常包括以下步骤： 1. **加载数据**：导入ARFF或CSV格式的数据文件到Weka工作台。 2. **...

已经过归一化离散化处理的亲测可用的kdd99数据集: TXT文件通常包含纯文本数据，易于读取和处理，而ARFF（Attribute-Relation File Format）是Weka机器学习库所使用的标准格式，它支持属性-关系结构，包括数值型、分类型数据以及元数据信息。描述还指出，这些数据可以...

Weka平台使用方法: Weka包含了各种数据转换的过滤器，以适应不同格式的数据，尤其是ARFF格式，这是Weka处理数据的主要方式。此外，Weka还支持多种机器学习任务，如分类、回归、聚类和关联规则挖掘，且允许用户自定义或集成新的算法。 ...

mulan多标签学习的emotions数据: `emotions.txt`文件可能是原始文本数据或转换后的特征数据，以纯文本形式保存。对于文本分析，txt文件易于处理，可以使用各种编程语言（如Python）轻松读取和分析。在实际应用中，mulan的emotions数据集可以用于...

Global site tag (gtag.js) - Google Analytics