摘自:http://www.cnblogs.com/xiaoka/archive/2012/03/22/2412421.html
Weka简介 (http://www.china-pub.com/computers/common/info.asp?id=29304)
WEKA的全名是怀卡托智能分析环境(Walkato Environment for Knowledge Analysis),WEKA的开发者来自新西兰,而新西兰有一种鸟名字叫做weka,便是weka图标上的那只。
WEKA是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。
2005年8月,在第十一届ACM SIGKDD的会议上,怀卡托大学的Weka小组获得了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现金最完备的数据挖掘工具之一。Weka每月的下载次数都已破万。
--摘自(http://www.china-pub.com/computers/common/info.asp?id=29304)
数据格式
WEKA的数据是.arff(Attribute-Relation File Format)格式的,是ASCII文本文件。相当于一张二维的表格,@attribute中第二列是表中各项的属性,第二列指定了表格该项的类型,一般有五种类型:{NORMINAL, NUMBERIC, STRING, DATE, RELATION}。下面是一个例子:
复制代码
@RELATION iris
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-versicolor
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-virginica
5.4,3.9,1.7,0.4,Iris-setosa
复制代码
其中:
1. @RELATION 我自己的理解是相当于给个名字,这二个字符串包含空格,必须加上引号,英文符号中的单引和双引都可;
2. @ATTRIBUTE 中第二列是表中各项的属性,第二列指定了表格该项的类型,一般有五种类型:{NORMINAL, NUMBERIC, STRING, DATE, RELATION};
3. @DATA标记后面写的都是数据,每一行都是一组数据。
在WEKA中给用户提供了从数据库和Excel导出CSV文件转换成ARFF文件的方法,如果不嫌麻烦写个写文件的函数也一样。
稀疏数据格式
稀疏数据格式Sparse ARFF和ARFF文件很像,是WEKA中提供的为了有大量零值数据格式。稀疏数据格式一般是<index><space><value>
如上面例子中的
5.1,3.5,1.4,0.2,Iris-setosa
可以写成:
1 5.1,2 3.5,3 1.4,4 0.2,5 Iris-setosa
文本数据格式
文本数据格式在数据格式中并没有,但是在WEKA的数据样例中有这样的例子。当你把文本用TextDirectoryLoader将文本集合转化成数据的时候就会形成这样的格式。下面是一个例子:
复制代码
@relation D__temp_weka_TextDirectoryLoader
@attribute text string
@attribute @@class@@ {Libya,'Wall Street'}
@data
'Libyan fighters have raised the new government',Libya
'A special briefing by senior U.S. State Department Officials on Secretary Hillary Rodham Clinton\'s visit to Libya:',Libya
'Occupy Wall Street plans to demand probe into incident involving cop; Group also wants charges against protesters dropped','Wall Street'
'As Occupy Wall Street enters its fourth week, TIME takes a look at other sociopolitical movements in U.S. history','Wall Street'
'As Occupy Wall Street enters its fourth week, TIME takes a look at other sociopolitical movements in U.S. history','Wall Street'
'As Occupy Wall Street enters its fourth week, TIME takes a look at other sociopolitical movements in U.S. history','Wall Street'
复制代码
使用TextDirectoryLoader转化文本,使用命令行:
java weka.core.converters.TextDirectoryLoader -dir D:/temp/weka/TextDirectoryLoader/ > D:/temp/weka/data.arff
路径自己定义,记住不要漏掉符号>在文本文件夹路径和输出文件路径之间。
其中文件夹路径下面有两个文件夹:Libya和Wall Street。这两个文件夹下面分别有属于各自类别的文本。
分享到:
相关推荐
matlab默认使用的数据格式是mat,而weka在数据挖掘中经常用到,但其默认格式为arff。利用本代码可以将mat格式数据自动转为arff格式,自动添加数据头信息。能够很好处理高维度数据
该matlab程序用于数据格式转换,能将mat数据转换为weka所需的数据类型.
weka简介,数据格式,数据准备,explorer界面,分类、聚类、关联规则。
Weka是一款广泛应用于数据...总的来说,这个全面的Weka数据集为学习和应用数据挖掘技术提供了宝贵的资源。无论是初学者还是经验丰富的数据科学家,都可以通过这些数据集加深对机器学习的理解,提升技能,解决实际问题。
但是,我们希望能够清除有关数据挖掘的这些误解并希望弄清楚一点:数据挖掘既不像对一系列数据运行一个电子数据表函数那么简单,也不像有人想的那样难到靠自己根本无法实现。这是80/20范型的一个很好的例子——甚至...
标签“weka数据集”明确了这是与Weka相关的数据集,通常包括真实世界数据以及人为构造的示例数据,用于展示Weka的各种功能和算法的效果。这些数据集可以帮助用户了解如何在实际问题中运用Weka,并评估不同算法的表现...
“个人推荐的Weka教程,包含了数据格式、数据准备、分类和聚类Demo” 这个标题表明这是一个关于Weka的数据挖掘工具的教程,它涵盖了数据预处理的基本步骤,包括数据格式的理解、数据准备的技巧,以及核心的机器学习...
weka数据挖掘软件,不带jre,方向下载
"houses.arff"数据集则与房地产相关,它通常用于房价预测或者其他房屋属性分析。数据集中的属性可能包括房屋的卧室数量、浴室数量、地理位置、房屋面积等。使用Weka,我们可以对这些属性进行预处理,如缺失值处理、...
数据挖掘是一种从大量数据中发现有价值知识的过程,而WEKA是一款强大的数据挖掘工具,尤其在教育和研究领域广泛应用。这份“数据挖掘-WEKA实验报告一”详细介绍了如何使用WEKA进行数据预处理,这是数据挖掘流程中的...
Weka内置了一套标准的数据集,这些数据集通常以.arff(Attribute-Relation File Format)格式存储,可以在安装Weka后,在程序的根目录下的"data"文件夹中找到。这些数据集涵盖了各种领域,如医学、天气、植物学等,...
Weka几乎包含了所有常见机器学习算法的Java实现,Weka中支持的数据格式主要是arff,虽然weka官网上提供了一些arff文件,但有时仅有这些还不能满足需求,为此,本人搜集各方资料,再加上自己的手工转换,整理出了一个...
weka资料\1 有没有weka相关的qq群.doc ........\assignment1.pdf ........\BayesianNetClassifiers.pdf ........\ExperimenterTutorial-3.5.3.pdf ........\ExperimenterTutorial.pdf ........\ExplorerGuide-...
本数据包"数据分析与数据挖掘数据源 dbworld文本数据包 分别含MATLAB格式和WEKA格式数据.rar"提供了用于实践和学习这两种技术的宝贵资源。 MATLAB(Matrix Laboratory)是一种强大的编程环境,尤其适合数值计算和...
Weka能够处理多种数据源,包括ARFF格式的文件,这是Weka专用的一种属性-关系文件格式,用于描述具有相同属性结构的实例列表。实验选用的数据集是iri.arff,源自鸢尾花数据,包含了三个鸢尾花品种,每个品种有50个...
标题“WEKA数据源”涉及到的是数据挖掘领域中的一个重要工具——WEKA,以及其在实际操作中所使用的数据集。WEKA,全称Waikato Environment for Knowledge Analysis,是一个开源的数据挖掘软件,由新西兰怀卡托大学...
该数据集合是进行WEKA学习的一个练习用数据集
WEKA支持多种数据格式,包括ARFF(Attribute-Relation File Format)和其他常见的如CSV、Excel等。 **数据格式** 在WEKA中,主要使用ARFF文件格式存储数据。ARFF文件是一种文本文件,用于存储结构化的数据集,包括...
**基于Weka的数据分类分析实验报告** 在信息技术领域,数据挖掘是至关重要的组成部分,它从海量数据中提取有价值的信息和知识。Weka是一款强大的、开源的机器学习和数据挖掘工具,广泛应用于教育和研究领域。本实验...
Weka是一个强大的数据挖掘工具,由新西兰怀卡托大学开发,它提供了丰富的机器学习算法和数据预处理方法。在这个项目中,由于数据的属性维度超过了十三万,这意味着我们面临着高维数据问题,这可能导致过拟合、训练...