`

个人推荐的Weka教程,包含了数据格式、数据准备、分类和聚类Demo

 
阅读更多

      WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到

 

      同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。

 

      WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

 

      我学习的过程中会持续把有用的教材上传...

 

 

------

调用weka API写了两个java程序,很基本:

package cn.edu.xmu.bdm.wekainjava.test;

import java.io.FileReader;
import weka.core.Instances;

/**
 * desc:试试Weka中最基本最重要的Instance类
 * <code>InstanceTest</code>
 * @version 1.0 2011/12/13
 * @author chenwq
 *
 */
public class InstanceTest {
	public static Instances getFileInstances(String fileName) throws Exception {
		FileReader frData = new FileReader(fileName);
		Instances data = new Instances(frData);

		return data;
	}

	public static void main(String[] args) throws Exception {
		Instances instances = getFileInstances("C:\\Program Files\\Weka-3-6\\data\\bank-data-final.arff");

		// 把数据集全部输入出
		// System.out.println( instances );

		// 用numInstances可以获得数据集中有多少样本
		for (int i = 0; i < instances.numInstances(); i++) {

			// instance( i )是得到第i个样本
			System.out.println(instances.instance(i));
		}
	}
}

 

 

 

package cn.edu.xmu.bdm.wekainjava.test;

/**
 * desc:试试Weka的决策树类
 * <code>J48Test</code>
 * @version 1.0 2011/12/13
 * @author chenwq
 *
 */
import java.io.File;
import java.io.IOException;

import weka.classifiers.Classifier;
import weka.classifiers.trees.J48;
import weka.core.Instances;
import weka.core.converters.ArffLoader;

public class J48Test {

	/**
	 * @param args
	 * @throws Exception 
	 */
	public static void main(String[] args) throws Exception {
		 Classifier m_classifier = new J48();
	        File inputFile = new File("C:\\Program Files\\Weka-3-6\\data\\cpu.with.vendor.arff");//训练语料文件
	        ArffLoader atf = new ArffLoader(); 
	        atf.setFile(inputFile);
	        Instances instancesTrain = atf.getDataSet(); // 读入训练文件    
	        inputFile = new File("C:\\Program Files\\Weka-3-6\\data\\cpu.with.vendor.arff");//测试语料文件
	        atf.setFile(inputFile);          
	        Instances instancesTest = atf.getDataSet(); // 读入测试文件
	        instancesTest.setClassIndex(0); //设置分类属性所在行号(第一行为0号),instancesTest.numAttributes()可以取得属性总数
	        double sum = instancesTest.numInstances(),//测试语料实例数
	        right = 0.0f;
	        instancesTrain.setClassIndex(0);
	         m_classifier.buildClassifier(instancesTrain); //训练           
	        for(int  i = 0;i<sum;i++)//测试分类结果
	        {
	            if(m_classifier.classifyInstance(instancesTest.instance(i))==instancesTest.instance(i).classValue())//如果预测值和答案值相等(测试语料中的分类列提供的须为正确答案,结果才有意义)
	            {
	              right++;//正确值加1
	            }
	        }
	        System.out.println("J48 classification precision:"+(right/sum));


	}

}

 

 

分享到:
评论
3 楼 fighterqiao 2012-09-17  
好,学习了,
2 楼 chenwq 2012-05-29  
对Weka很有研究的达人!
http://quweiprotoss.blog.163.com/blog/static/40882883201103051150347/
1 楼 chenwq 2012-05-28  
Weka简易、有用教材!
http://maya.cs.depaul.edu/classes/ect584/weka/

相关推荐

    WEKA使用教程 简介 数据格式 数据准备 分类与回归 聚类分析

    WEKA支持多种数据格式,包括ARFF(Attribute-Relation File Format)和其他常见的如CSV、Excel等。 **数据格式** 在WEKA中,主要使用ARFF文件格式存储数据。ARFF文件是一种文本文件,用于存储结构化的数据集,包括...

    Weka中各种分类算法和聚类算法集成

    本工具包集成了Weka中最新的分类和聚类算法,将其打包成jar包,方便java开发者调用

    基于weka的数据分类和聚类分析实验报告.doc

    "Weka 기반数据分类和聚类分析实验报告" 本实验报告的主要目标是通过使用Weka中的三种常见分类和聚类方法,分别是决策树J48、KNN和K-means,对数据进行分类和聚类分析,并对各个模型进行评估和比较。 在实验中,...

    数据挖掘-weka入门教程,数据格式,

    weka简介,数据格式,数据准备,explorer界面,分类、聚类、关联规则。

    根据weka的数据分类和聚类分析实验报告.pdf

    【基于Weka的数据分类和聚类分析实验报告】 在数据挖掘和机器学习领域,Weka是一个广泛使用的开源工具,它提供了丰富的数据预处理、分类、聚类和关联规则挖掘等功能。本实验报告主要探讨了使用Weka进行数据分类和...

    基于weka的数据分类和聚类分析实验报告.docx

    【基于Weka的数据分类和聚类分析实验报告】 在数据科学和机器学习领域,Weka是一个广泛使用的开源工具,它提供了各种数据预处理、分类、聚类和回归算法。本实验报告主要关注如何使用Weka进行数据分类和聚类,并通过...

    基于-weka的数据分类和聚类分析实验报告.doc

    数据分类和聚类是数据分析中的核心环节,本实验采用Weka这一强大的数据挖掘工具,通过三种常见的分类和聚类方法——决策树J48、KNN近邻算法和k-means聚类算法,对数据进行深入分析。实验的主要目标是构建最佳的分类...

    基于weka的数据分类和聚类分析实验报告.pdf

    在本实验报告中,主要探讨了使用Weka这一开源数据挖掘工具进行数据分类和聚类分析的过程。实验涉及的关键知识点如下: 1. **Weka工具**:Weka是一款广泛用于机器学习和数据挖掘任务的软件,它提供了丰富的算法库,...

    weka-src.rar_ weka_Weka 聚类_java 数据挖掘_weka java_聚类 java

    Weka是一个强大的开源数据挖掘平台,由新西兰的Waikato大学开发,它提供了多种机器学习和数据挖掘算法,包括聚类、分类、关联规则、特征选择等。 在描述中提到的“Java 编写的多种数据挖掘算法”,这表明Weka是用...

    基于weka的数据分类和聚类分析试验报告课案.pdf

    在基于Weka的实验中,我们通常会进行数据分类和聚类分析。本实验报告主要涉及了三种常用的数据分类算法:决策树J48、KNN(K最近邻)以及k-means聚类算法。 首先,实验开始前,我们需要对原始数据进行预处理。数据...

    WEKA聚类分析实例代码

    WEKA(Waikato Environment for Knowledge Analysis)是新西兰怀卡托大学开发的一个开源数据挖掘软件,它提供了丰富的机器学习算法,包括分类、聚类、关联规则等,适用于科研和教学。 聚类分析是一种无监督学习方法...

    基于weka的数据分类分析实验报告(精选)

    它包含了多种预处理方法、分类、聚类、关联规则和特征选择算法,以及可视化工具,为用户提供了一个全面的数据分析平台。 二、数据分类基础 数据分类是数据挖掘的重要任务之一,其目标是根据已知的属性值,将数据...

    WEKA完整中文教程 实验教程 入门教程

    1. **数据加载**:WEKA支持多种数据格式,如.arff(Attribute-Relation File Format)是最常用的一种。用户可以通过"文件"菜单导入本地数据或从网络加载数据。 2. **数据预处理**:预处理是为了清洗和转换原始数据...

    基于Weka的数据分类分析实验报告范文.docx

    Weka是由新西兰怀卡托大学开发的一款开源软件,它支持在多种操作系统上运行,涵盖了回归、分类、聚类、关联规则和属性选择等多种数据挖掘任务。Weka提供了一个直观的用户界面,用户可以通过菜单选择不同的学习算法,...

    weka使用中文教程

    WEKA 提供了多种分类和回归算法,包括决策树、随机森林、支持向量机等。 6. 聚类分析 聚类分析是一种无监督的学习算法,能够将数据分为不同的类别。WEKA 提供了多种聚类算法,包括 K-均值算法、层次聚类算法等。...

Global site tag (gtag.js) - Google Analytics