[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression - 路漫漫

RangerWolf

浏览: 236129 次
性别:
来自: 南京

最近访客更多访客>>

dazhou

xubukang

minxiaomin

qihongce

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression

博客分类：

数据挖掘
Mahout
Java

在mahout的官网上面，有讲诉如何在命令行之中使用Logistic Regression对自带的donut.csv进行训练的例子。

现在我们要做的，是自己在java代码之中对iris的数据使用LR进行分析。

首先，我们要熟悉一下，使用LR需要哪些参数以及他们的作用。我们从《mahout实战》上面给出的命令行例子来了解一下：

$ bin/mahout trainlogistic --input donut.csv \
--output ./model \
--target color --categories 2 \
--predictors x y --types numeric \
--features 20 --passes 100 --rate 50

简单说明一下：

--input: 输入的文件

--output: 输出的模型存放的文件

--target: 目标变量名

--categories: 有几个分类

--predictors: 使用哪些属性进行预测。在上面的命令行之中只使用了x跟y两个属性

--type: 预测变量的类型，除了numeric, 还有word,text.

--passes: 对于小样本数据，可以多循环几次，对于大型数据样本，1次即可

--rate: 学习率

--features: 不知道中文如何描述，我对LR的理解还不够深入。英文描述：Sets the size of the internal feature vector to use in building the model. A larger value here can be helpful, especially with text-like input data

命令trainlogistic 对应着org.apache.mahout.classifier.sgd.TrainLogistic.java. 这是训练模型的代码。相应的，还有运行模型的代码：org.apache.mahout.classifier.sgd.RunLogistic.java

在大概了解之后，我们开始针对iris的数据进行实际操作一把：

package org.apache.mahout.classifier.sgd;

import java.io.File;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.util.List;
import java.util.Locale;

import org.apache.commons.io.FileUtils;
import org.apache.mahout.classifier.evaluation.Auc;
import org.apache.mahout.math.RandomAccessSparseVector;
import org.apache.mahout.math.SequentialAccessSparseVector;
import org.apache.mahout.math.Vector;

import com.google.common.base.Charsets;
import com.google.common.collect.Lists;

public class IrisLRTest {

	private static LogisticModelParameters lmp;
	private static PrintWriter output;

	public static void main(String[] args) throws IOException {
		// 1: new
		lmp = new LogisticModelParameters();
		output = new PrintWriter(new OutputStreamWriter(System.out,
				Charsets.UTF_8), true);

		// 2: init params
		lmp.setLambda(0.001);
		lmp.setLearningRate(50);
		lmp.setMaxTargetCategories(3); //总共有3种iris
		lmp.setNumFeatures(4);         //看起来除了class只有4种属性，先设定为4
		List<String> targetCategories = Lists.newArrayList("Iris-setosa", "Iris-versicolor", "Iris-versicolor");  //这里使用的是guava里面的api
		lmp.setTargetCategories(targetCategories);
		lmp.setTargetVariable("class"); // 需要进行预测的是class属性
		List<String> typeList = Lists.newArrayList("numeric", "numeric", "numeric", "numeric");
		List<String> predictorList = Lists.newArrayList("sepallength", "sepalwidth", "petallength", "petalwidth");
		lmp.setTypeMap(predictorList, typeList);

		// 3. load data
		List<String> raw = FileUtils.readLines(new File(
				"E:\\DataSet\\R\\iris.csv")); //使用common-io进行文件读取
		String header = raw.get(0);
		List<String> content = raw.subList(1, raw.size());
		// parse data
		CsvRecordFactory csv = lmp.getCsvRecordFactory();
		csv.firstLine(header); // !!!Note: this is a initialize step, do not
								// skip this step

		// 4. begin to train
		OnlineLogisticRegression lr = lmp.createRegression();
		for(int i = 0; i < 100; i++) {  //对于小数据集我们多运行几次
			for (String line : content) {
				Vector input = new RandomAccessSparseVector(lmp.getNumFeatures());
				int targetValue = csv.processLine(line, input);
				lr.train(targetValue, input);  // 核心的一句！！！
			}
		}

		// 5. show model performance: show classify score
		double correctRate = 0;
		double sampleCount = content.size();
		
		for (String line : content) {
			Vector v = new SequentialAccessSparseVector(lmp.getNumFeatures());
			int target = csv.processLine(line, v);
			int score = lr.classifyFull(v).maxValueIndex();  // 分类核心语句!!!
			System.out.println("Target:" + target + "\tReal:" + score);
			if(score == target) {
				correctRate++;
			}
		}
		output.printf(Locale.ENGLISH, "Rate = %.2f%n", correctRate / sampleCount);
	}

}

运行结果：Rate = 0.90

在上面的代码中，要注意的是：

1. 注意所有必需的参数一定要都设定好并设定正确

2. 在必要的参数初始化之后，才能正确的getCsvRecordFactor 跟 createRegression. 否则会遇到空指针异常

为了对模型进行调优，我们可以做如下事情：

1. 设定更大的numFeatures. 当前是4，我们设定为5、10、20 。。。

2. 设定更大的循环次数，当前是100，我们可以设定为200、300 ==

最终，我设定的参数：

numFeature = 5

passes = 40

结果： Rate = 0.98

0
顶

0
踩

分享到：

[Mahout] mahout 0.9 的 seqdirectory 有bu ... | [Mahout] Windows + Eclipse 构建mahout运 ...

2014-07-11 14:17
浏览 6175
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression

评论

发表评论

相关推荐

[Lucene] Lucene 4.10 显示分词结果

[Hadoop] 分布式Join : Replicated Join

[Hadoop]使用Hadoop进行ReduceSideJoin

[Hadoop] Hadoop 链式任务 : ChainMapper and ChainReducer的使用

[Hadoop] 练习：使用Hadoop计算两个向量的内积

[Hadoop] TopK的一个简单实现

[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes

[Mahout] 为什么mahout需要sequencefile ?

[Mahout] mahout 0.9 的 seqdirectory 有bug

[Mahout] Windows + Eclipse 构建mahout运行环境

[Mahout] 第一个小实验：使用GroupLens进行推荐模型的检验

[Mahout] Windows下Mahout单机安装

[Kaggle实战] Titanic 逃生预测 (5) - 使用Dot语言绘制决策树

[Kaggle实战] Titanic 逃生预测 (4) - 决策树建模

[Kaggle实战] Titanic 逃生预测 (3) - Age离散化

[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理

[Kaggle实战] Titanic 逃生预测 (1) - 项目起步

Java实现的朴素贝叶斯分类器

使用Java实现的ID3算法

Weka 界面操作实例

最近访客更多访客>>