`

weka(一) 分类. weka预测新浪微博有效用户

 
阅读更多

下载和安装就不说了

 

参考文档:

1. Use Weka in your Java code   ==>  http://weka.wikispaces.com/Use+Weka+in+your+Java+code#Examples

2. 图形化界面使用步骤  ==>  http://www2.tech.purdue.edu/cit/Courses/CIT499d/

3. Weka使用笔记  ==>  http://hi.baidu.com/luowenhan2008/blog/item/e9e37f19f20093a14bedbce8.html

4. weka软件中bayes分类器的使用==> http://hi.baidu.com/%CF%FE%D4%C2%B7%C9%B7%C9/blog/item/d3062c1eab3ae869f624e4e4.html

 

中文乱码解决:将安装文件夹内的RunWeka.ini文件打开,将fileEncoding的值Cp1252换成Cp936

1. txt文件转化为arff文件:

 

一、Weka使用:

1. 启动Weka-3-6/Weka 3.6,打开窗口Weka GUI Chooser如下


 

2. 点击Explorer按钮后出现如下窗口

 

--Preprocess选项卡:

    (1)Open file ,浏览到.artff文件(我抓取的用户信息,经过人工识别有效用户)

    (2)Class: 有效用户(Nom) ,表示统计的变量是“有效用户”这一个属性

        Visualize All ,可以观察到的每张柱状图 是“某个属性的划分的个数统计”;蓝色 表示有效用户,红色 表示无效用户。

 

--Classify选项卡:

    (1)Classifier/Choose 按钮可以选择分类“方法”

    (2)Test options

         Percentage split %80 ,表示.artff文件中前80%为训练集 ,后%20为测试集

         (Nom)有效用户 ,表示NaiveBayes分类中的“类别”是属性“有效用户”的几个划分(∈{y,n})

         点击 Start按钮 就开始按照上面的设置“将.artff文件前80%作为训练集构造NaiveBayes分类器,然后将20%作为测试集评估分类器”

实验结果如下:

=== Run information ===

Scheme:weka.classifiers.bayes.NaiveBayes 
Relation:     weibo.users
Instances:    50
Attributes:   22
              粉丝数
              关注数
              互粉数
              证券
              股市
              股票
              分析师
              华尔街
              投资
              期货
              金融
              财经
              交易
              基金
              理财
              资金
              财富
              钱
              性别
              认证用户
              地点
              有效用户
Test mode:split 80.0% train, remainder test

=== Classifier model (full training set) ===

Naive Bayes Classifier

                Class
Attribute           y      n
               (0.31) (0.69)
=============================
粉丝数
  <1000            6.0   29.0
  <10000          10.0    6.0
  >=10000          2.0    3.0
  [total]         18.0   38.0

关注数
  <50              1.0    5.0
  <100             3.0    6.0
  <200             4.0    8.0
  <300             2.0    5.0
  <500             2.0    6.0
  <1000            6.0    9.0
  >=1000           4.0    3.0
  [total]         22.0   42.0

互粉数
  <50              4.0   17.0
  <100             4.0    6.0
  <150             3.0    6.0
  <200             2.0    4.0
  <300             3.0    2.0
  <500             2.0    5.0
  <1000            4.0    1.0
  >=1000           1.0    2.0
  [total]         23.0   43.0

证券
  证券               2.0    1.0
  其他              15.0   36.0
  [total]         17.0   37.0

股市
  股市               1.0    1.0
  其他              16.0   36.0
  [total]         17.0   37.0

股票
  股票               1.0    1.0
  其他              16.0   36.0
  [total]         17.0   37.0

分析师
  分析师              5.0    1.0
  其他              12.0   36.0
  [total]         17.0   37.0

华尔街
  华尔街              1.0    1.0
  其他              16.0   36.0
  [total]         17.0   37.0

投资
  投资               4.0    3.0
  其他              13.0   34.0
  [total]         17.0   37.0

期货
  期货               7.0    6.0
  其他              10.0   31.0
  [total]         17.0   37.0

金融
  金融               3.0    2.0
  其他              14.0   35.0
  [total]         17.0   37.0

财经
  财经               3.0    1.0
  其他              14.0   36.0
  [total]         17.0   37.0

交易
  交易               3.0    4.0
  其他              14.0   33.0
  [total]         17.0   37.0

基金
  基金               1.0    1.0
  其他              16.0   36.0
  [total]         17.0   37.0

理财
  理财               2.0    2.0
  其他              15.0   35.0
  [total]         17.0   37.0

资金
  资金               2.0    1.0
  其他              15.0   36.0
  [total]         17.0   37.0

财富
  财富               2.0    1.0
  其他              15.0   36.0
  [total]         17.0   37.0

钱
  钱                1.0    1.0
  其他              16.0   36.0
  [total]         17.0   37.0

性别
  m               13.0   25.0
  f                4.0   12.0
  其他               1.0    1.0
  [total]         18.0   38.0

认证用户
  上海               4.0    7.0
  北京               5.0    7.0
  香港               1.0    2.0
  广州               4.0    9.0
  杭州               1.0    1.0
  其他               6.0   15.0
  [total]         21.0   41.0

地点
  其他              16.0   36.0
  [total]         16.0   36.0



Time taken to build model: 0 seconds

=== Evaluation on test split ===
=== Summary ===

Correctly Classified Instances           6               60      %
Incorrectly Classified Instances         4               40      %
Kappa statistic                          0.2   
Mean absolute error                      0.3518
Root mean squared error                  0.54  
Relative absolute error                 70.352  %
Root relative squared error             97.5101 %
Total Number of Instances               10     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.4       0.2        0.667     0.4       0.5        0.88     y
                 0.8       0.6        0.571     0.8       0.667      0.88     n
Weighted Avg.    0.6       0.4        0.619     0.6       0.583      0.88 

=== Confusion Matrix ===

 a b   <-- classified as
 2 3 | a = y
 1 4 | b = n
 

 

二、实验过程略(见/eclipse-tonysu/weibo4j-oauth2工程)

实验结果——120组采样时,下面分别是“训练集的%”和“测试集正确分类率”:

 

x=[10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95]
y=[0.759259,0.764706,0.760417,0.766667,0.77381,0.807692,0.805556,0.818182,0.833333,0.851852,0.833333,0.857143,0.888889,0.866667,0.916667,0.888889,0.916667,0.833333]
plot(x,y)
xlabel('% split')
ylabel('Correctly Classified Instances')

Matlab作图

解释:

1. 训练集越多,正确分类率越高

2. 随着训练集占的比例升高,测试集比例下降,因此测试集的随机性增加,图形变得不稳定

类比“入侵检测”中:降低误报率,降低漏报率。两者是矛盾的,如何权衡

 

注:写一个文件编码转换器 i.e. gbk->utf-8

  • 大小: 40.8 KB
  • 大小: 90.3 KB
  • 大小: 62.3 KB
  • 大小: 12.8 KB
分享到:
评论

相关推荐

    weka-src.jar.zip_algorithms_weka-src jar_weka-src.j_weka-src.jar

    此外,"weka.jar"通常是指编译后的可执行JAR文件,用户可以直接在Java环境中运行,无需编译源代码。 "weka-3.6.0-license.txt"文件则包含了Weka的许可协议,它规定了软件的使用、分发和修改条件。Weka遵循GNU ...

    weka-src.jar

    weka-src.jar这对于搞研究 还是 很有用的,看到 ,供大家研究学习之用!

    weka-3.7.3.jar- java开发包

    import weka.classifiers.trees.J48; public class WekaExample { public static void main(String[] args) throws Exception { // 加载数据 DataSource dataSource = new DataSource("data.arff"); ...

    weka.jar和weka.zip源码 API

    用户可以通过在命令行中调用`java -jar weka.jar`来启动Weka的命令行界面,或者在Java代码中通过`import weka.*;`引入Weka的API,进行数据挖掘和机器学习任务。 描述中提到了“weka源码”,即“weka-src.zip”,这...

    JAVA-weka包.zip

    Weka(Waikato Environment for Knowledge Analysis)是新西兰怀卡托大学开发的一个开源数据挖掘软件,它提供了大量预处理、分类、回归、聚类、关联规则学习以及可视化算法。在Java中使用Weka,可以方便地集成到各种...

    weka数据挖掘软件相关文档

    ........\Machine Learning Software Intro WEKA.ppt ........\ML_Oliver.pdf ........\WEKA ExplorerGuide-3.5\ExplorerGuide-3.5.5..doc ........\Weka-tutorial.ppt ........\weka.ppt ........\weka中文...

    weka 3.6.2jre.exe安装包带word安装教程

    Weka是一款源自新西兰的著名数据挖掘工具,全称为" Waikato Environment for Knowledge Analysis",它提供了多种机器学习算法和数据预处理功能,是数据分析和预测建模的重要软件。本教程将详细介绍如何安装Weka ...

    weka_android.zip

    Weka是一个广泛使用的开源数据挖掘和机器学习工具集,通常在Java环境中运行,提供图形用户界面(GUI)和编程接口。在Android设备上直接使用原版Weka可能会遇到兼容性和性能问题,因为其设计之初并未考虑移动设备的...

    Weka各类分类器的使用(Java)

    classifier1 = (Classifier) Class.forName("weka.classifiers.bayes.NaiveBayes").newInstance(); // 决策树 classifier2 = (Classifier) Class.forName("weka.classifiers.trees.J48").newInstance(); // ...

    基于weka的文本分类器

    Weka(Waikato Environment for Knowledge Analysis)是一个强大的开源数据挖掘工具,它提供了丰富的机器学习算法和数据预处理功能,非常适合进行文本分类。本项目是基于Weka实现的文本分类器,旨在帮助初学者快速...

    weka预测股票

    weka预测,timeseriesForecasting,测试类forecast_appleStocks2011,是预测股票的,支持overlay设置影响因数

    weka-src.zip_FPGROWTH.java weka_fpgrowth weka_weka_weka src

    `weka_weka_weka`这个标签可能表示了Weka项目中对Weka自身的多次引用,这可能意味着源代码中有多个层级的模块化设计,每个`weka`可能代表一个不同的组件或者功能包。这样的设计使得Weka的代码结构更加清晰,易于维护...

    weka-src.rar_weka_weka eclip_关联规则

    3. 学习和理解WEKA的API,特别是与关联规则相关的部分,如`weka.associations`包下的类。 4. 创建自己的Java程序或Eclipse插件,使用WEKA API加载数据,设置关联规则挖掘的参数,然后运行算法并解析结果。 5. 分析...

    weka-src.rar_ weka source code_Filtered Associator_filteredassoc

    在`weka-src`目录下,你可以找到与`Filtered Associator`相关的Java类,例如`weka.associations.FilteredAssociator`,这个类实现了`Classifier`接口,这是Weka中所有分类和关联规则算法的基类。在这里,你可以看到...

    weka-src.rar_weka

    6. **可视化**:Weka提供了丰富的数据和模型可视化工具,帮助用户直观地理解数据分布、模型性能以及预测结果。 在“weka-src.rar”这个压缩包中,包含了Weka的源代码,这为用户提供了深入理解其内部工作原理的机会...

    weka jar包

    3. **选择算法**:Weka提供了大量的机器学习算法,用户可以根据问题类型(分类、回归、聚类、关联规则等)选择合适的算法。 4. **训练模型**:用户设定好算法参数后,可以使用训练数据进行模型构建。 5. **模型...

    weka-3-5-8.zip_WEKA 3.5.8 下载_jar weka_weka.HotSpot_weka3.5.4

    "weka.HotSpot"可能是指WEKA中的热点分析功能,允许用户找出数据集中影响模型性能的关键特征或属性。而"weka3.5.4"可能是提到的一个早期版本,表明WEKA随着时间和社区的发展不断进行升级和改进。 ...

    weka开发java版jar包和源码

    这样,就可以直接使用Weka提供的类和方法,例如`weka.classifiers.Classifier`类用于训练和预测模型,`weka.core.Instances`类用于处理数据集,`weka.filters.Filter`类则用于数据预处理。 例如,以下是一个简单的...

    Java调用weka神经网络算法预测股票 代码及数据

    本话题主要探讨如何使用Java结合Weka这一开源机器学习库来构建神经网络模型,以预测股票市场。Weka是一个强大的工具,提供了多种机器学习算法,包括神经网络,用于数据挖掘和模式识别任务。 首先,我们要理解神经...

    phmm4weka-1.1.3.zip

    在实际使用中,用户首先需要解压"phmm4weka-1.1.3.zip",将插件导入到Weka环境中,以便在数据预处理、分类、聚类等任务中利用PHMM的特性。然后,用户可以解压"blackhole.zip",克隆或导入"blackhole-master"代码到...

Global site tag (gtag.js) - Google Analytics