- 浏览: 564327 次
- 性别:
- 来自: 济南
文章分类
- 全部博客 (270)
- Ask chenwq (10)
- JSF (2)
- ExtJS (5)
- Life (19)
- jQuery (5)
- ASP (7)
- JavaScript (5)
- SQL Server (1)
- MySQL (4)
- En (1)
- development tools (14)
- Data mining related (35)
- Hadoop (33)
- Oracle (13)
- To Do (2)
- SSO (2)
- work/study diary (10)
- SOA (6)
- Ubuntu (7)
- J2SE (18)
- NetWorks (1)
- Struts2 (2)
- algorithm (9)
- funny (1)
- BMP (1)
- Paper Reading (2)
- MapReduce (23)
- Weka (3)
- web design (1)
- Data visualisation&R (1)
- Mahout (7)
- Social Recommendation (1)
- statistical methods (1)
- Git&GitHub (1)
- Python (1)
- Linux (1)
最新评论
-
brandNewUser:
楼主你好,问个问题,为什么我写的如下的:JobConf pha ...
Hadoop ChainMap -
Molisa:
Molisa 写道mapred.min.split.size指 ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
Molisa:
mapred.min.split.size指的是block数, ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
heyongcs:
请问导入之后,那些错误怎么解决?
Eclipse导入Mahout -
a420144030:
看了你的文章深受启发,想请教你几个问题我的数据都放到hbase ...
Mahout clustering Canopy+K-means 源码分析
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到
同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
我学习的过程中会持续把有用的教材上传...
------
调用weka API写了两个java程序,很基本:
package cn.edu.xmu.bdm.wekainjava.test; import java.io.FileReader; import weka.core.Instances; /** * desc:试试Weka中最基本最重要的Instance类 * <code>InstanceTest</code> * @version 1.0 2011/12/13 * @author chenwq * */ public class InstanceTest { public static Instances getFileInstances(String fileName) throws Exception { FileReader frData = new FileReader(fileName); Instances data = new Instances(frData); return data; } public static void main(String[] args) throws Exception { Instances instances = getFileInstances("C:\\Program Files\\Weka-3-6\\data\\bank-data-final.arff"); // 把数据集全部输入出 // System.out.println( instances ); // 用numInstances可以获得数据集中有多少样本 for (int i = 0; i < instances.numInstances(); i++) { // instance( i )是得到第i个样本 System.out.println(instances.instance(i)); } } }
package cn.edu.xmu.bdm.wekainjava.test; /** * desc:试试Weka的决策树类 * <code>J48Test</code> * @version 1.0 2011/12/13 * @author chenwq * */ import java.io.File; import java.io.IOException; import weka.classifiers.Classifier; import weka.classifiers.trees.J48; import weka.core.Instances; import weka.core.converters.ArffLoader; public class J48Test { /** * @param args * @throws Exception */ public static void main(String[] args) throws Exception { Classifier m_classifier = new J48(); File inputFile = new File("C:\\Program Files\\Weka-3-6\\data\\cpu.with.vendor.arff");//训练语料文件 ArffLoader atf = new ArffLoader(); atf.setFile(inputFile); Instances instancesTrain = atf.getDataSet(); // 读入训练文件 inputFile = new File("C:\\Program Files\\Weka-3-6\\data\\cpu.with.vendor.arff");//测试语料文件 atf.setFile(inputFile); Instances instancesTest = atf.getDataSet(); // 读入测试文件 instancesTest.setClassIndex(0); //设置分类属性所在行号(第一行为0号),instancesTest.numAttributes()可以取得属性总数 double sum = instancesTest.numInstances(),//测试语料实例数 right = 0.0f; instancesTrain.setClassIndex(0); m_classifier.buildClassifier(instancesTrain); //训练 for(int i = 0;i<sum;i++)//测试分类结果 { if(m_classifier.classifyInstance(instancesTest.instance(i))==instancesTest.instance(i).classValue())//如果预测值和答案值相等(测试语料中的分类列提供的须为正确答案,结果才有意义) { right++;//正确值加1 } } System.out.println("J48 classification precision:"+(right/sum)); } }
- weka入门教程.rar (384.6 KB)
- 下载次数: 1273
- weka教程_侧重工具的每个部件的使用_.rar (537.4 KB)
- 下载次数: 1196
评论
3 楼
fighterqiao
2012-09-17
好,学习了,
2 楼
chenwq
2012-05-29
对Weka很有研究的达人!
http://quweiprotoss.blog.163.com/blog/static/40882883201103051150347/
http://quweiprotoss.blog.163.com/blog/static/40882883201103051150347/
1 楼
chenwq
2012-05-28
Weka简易、有用教材!
http://maya.cs.depaul.edu/classes/ect584/weka/
http://maya.cs.depaul.edu/classes/ect584/weka/
发表评论
-
EM算法小结
2012-07-20 12:16 3434描述 EM是一种基于模型的聚类算法,假设样本符合高斯混 ... -
研究生能力培养手册
2012-06-10 21:00 8711. 如果平时几乎没看过英文原文,读不懂怎么办? ... -
[转]中科院分词工具ICTCLAS Java JNI接口
2012-06-04 15:07 1871ICTCLAS,网址:http://www.ictcla ... -
正则表达式学习资源
2012-05-30 11:37 733不懂正则表达式,怎么好意思说是玩文本挖掘的? 下面 ... -
基于向量空间模型的文本聚类算法
2012-05-29 18:26 27301 文本聚类研究现状 Internet 已经发 ... -
再往前一步,学会更专业地看待问题,尝试去解决问题。
2012-05-22 14:11 944在科研工作中,有一个很基本的技能,就是对自己和别人的工 ... -
Bloom filter
2012-04-24 21:08 1192Bloom filter的优点: 大小固定,增加更多 ... -
基于密度的局部离群点检测
2012-04-24 16:49 3072算法:基于密度的局部离群点检测(lof算法) 输入:样 ... -
[转]非均衡数据集的分类问题
2012-03-31 21:36 2967传统的机器学习分类 ... -
LDA(线性判别分析)&PCA(主成分分析)
2012-03-23 21:16 1446推荐解释得非常好的两篇博文 http://blog.c ... -
Porter Stemming
2012-02-29 10:57 902摘要: 在英语中,一个单词常常是另一个单词的“变种”,如:h ... -
[转]Maven安装至eclipse步骤
2012-02-24 20:05 723CSDN 专注于性能测试 http://blog.csdn. ... -
Hadoop Browse the filesystem无法访问
2012-02-23 22:17 1098问题如题. 解决方法: 修改/windows/system ... -
数据挖掘数据集
2012-02-18 17:35 948收集数据挖掘过程中用到的数据集。欢迎补充! TREC ... -
分类器的动态选择
2012-02-18 17:15 1059XMU DM一师兄写的动态集成分类器的选择, 内容挺新颖的, ... -
Excel 数据分析
2012-02-17 12:00 1099Present your data in a histogra ... -
Weka集成分类器
2012-02-16 21:48 4197package cn.edu.xmu.bdm.wekai ... -
book reading plan
2012-02-09 15:50 710Mining of Massive Datasets ... -
[转]学术论文的标准格式是什么?写论文有哪些小技巧
2012-02-08 21:45 957我有一篇谈研究生开题报告的文章,你可以参考下: ... -
Drupal
2012-02-08 16:41 855OpenCalais homepage Drupal ...
相关推荐
WEKA支持多种数据格式,包括ARFF(Attribute-Relation File Format)和其他常见的如CSV、Excel等。 **数据格式** 在WEKA中,主要使用ARFF文件格式存储数据。ARFF文件是一种文本文件,用于存储结构化的数据集,包括...
本工具包集成了Weka中最新的分类和聚类算法,将其打包成jar包,方便java开发者调用
"Weka 기반数据分类和聚类分析实验报告" 本实验报告的主要目标是通过使用Weka中的三种常见分类和聚类方法,分别是决策树J48、KNN和K-means,对数据进行分类和聚类分析,并对各个模型进行评估和比较。 在实验中,...
weka简介,数据格式,数据准备,explorer界面,分类、聚类、关联规则。
【基于Weka的数据分类和聚类分析实验报告】 在数据挖掘和机器学习领域,Weka是一个广泛使用的开源工具,它提供了丰富的数据预处理、分类、聚类和关联规则挖掘等功能。本实验报告主要探讨了使用Weka进行数据分类和...
【基于Weka的数据分类和聚类分析实验报告】 在数据科学和机器学习领域,Weka是一个广泛使用的开源工具,它提供了各种数据预处理、分类、聚类和回归算法。本实验报告主要关注如何使用Weka进行数据分类和聚类,并通过...
数据分类和聚类是数据分析中的核心环节,本实验采用Weka这一强大的数据挖掘工具,通过三种常见的分类和聚类方法——决策树J48、KNN近邻算法和k-means聚类算法,对数据进行深入分析。实验的主要目标是构建最佳的分类...
在本实验报告中,主要探讨了使用Weka这一开源数据挖掘工具进行数据分类和聚类分析的过程。实验涉及的关键知识点如下: 1. **Weka工具**:Weka是一款广泛用于机器学习和数据挖掘任务的软件,它提供了丰富的算法库,...
Weka是一个强大的开源数据挖掘平台,由新西兰的Waikato大学开发,它提供了多种机器学习和数据挖掘算法,包括聚类、分类、关联规则、特征选择等。 在描述中提到的“Java 编写的多种数据挖掘算法”,这表明Weka是用...
在基于Weka的实验中,我们通常会进行数据分类和聚类分析。本实验报告主要涉及了三种常用的数据分类算法:决策树J48、KNN(K最近邻)以及k-means聚类算法。 首先,实验开始前,我们需要对原始数据进行预处理。数据...
WEKA(Waikato Environment for Knowledge Analysis)是新西兰怀卡托大学开发的一个开源数据挖掘软件,它提供了丰富的机器学习算法,包括分类、聚类、关联规则等,适用于科研和教学。 聚类分析是一种无监督学习方法...
它包含了多种预处理方法、分类、聚类、关联规则和特征选择算法,以及可视化工具,为用户提供了一个全面的数据分析平台。 二、数据分类基础 数据分类是数据挖掘的重要任务之一,其目标是根据已知的属性值,将数据...
1. **数据加载**:WEKA支持多种数据格式,如.arff(Attribute-Relation File Format)是最常用的一种。用户可以通过"文件"菜单导入本地数据或从网络加载数据。 2. **数据预处理**:预处理是为了清洗和转换原始数据...
Weka是由新西兰怀卡托大学开发的一款开源软件,它支持在多种操作系统上运行,涵盖了回归、分类、聚类、关联规则和属性选择等多种数据挖掘任务。Weka提供了一个直观的用户界面,用户可以通过菜单选择不同的学习算法,...
WEKA 提供了多种分类和回归算法,包括决策树、随机森林、支持向量机等。 6. 聚类分析 聚类分析是一种无监督的学习算法,能够将数据分为不同的类别。WEKA 提供了多种聚类算法,包括 K-均值算法、层次聚类算法等。...