`
小网客
  • 浏览: 1243654 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Mahout分类之决策树PartialBuilder应用使用

 
阅读更多

mahout版本:0.9

hadoop版本:2.3.0

基于决策树步骤如下:

1.基于已有数据形成描述文件

2.训练建树

3.分类预测

数据集:

http://nsl.cs.unb.ca/NSL-KDD/

下载KDDTrain+.TXT和KDDTest+.TXT

具体的应用步骤:

1.上传数据到hdfs上:

hadoop put  *.TXT /user/test/df/input/

2.描述文件生成:

hadoop jar  your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.tools.Describe -p /user/test/input/KDDTrain+.TXT -f /user/test/input/data.info  -d N 3 C 2 N C 4 N C 8 N 2 C 19 N L N

3.训练建树:

hadoop jar  your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.mapreduce.BuildForest \
            --data /user/test/input/KDDTrain+.TXT \
	    --dataset /user/test/input/data.info  \
	    --partial \
	    --nbtrees  200 \
	    --output /user/test//output/  \
	     --no-complete \

 

4.分类预测:

hadoop jar  your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.mapreduce.TestForest \
           --input /user/test/input/KDDTest+.TXT \
	   --dataset /user/test/input/data.info \
	   --model /user/test/output/forest.seq \
	   --analyze \
	   --mapreduce \
	   --output /user/test/predictions/ \

 

5.可以查看打印出决策树:

hadoop jar  your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.tools.ForestVisualizer  \ 
	   --dataset /user/test/input/data.info \
	   --model /user/test/output/forest.seq \

 

 

 

0
0
分享到:
评论

相关推荐

    Mahout之Item-based应用使用

    《Mahout之Item-based应用使用》 Apache Mahout是一个开源的机器学习库,主要专注于大规模数据集上的推荐系统、分类和聚类算法。在这个主题中,我们将深入探讨Mahout中的Item-based协同过滤(Item-based ...

    DecisionTree决策树数据挖掘算法的实现(Java)

    在Java中,可以使用各种库如Weka、Apache Mahout或自定义代码实现决策树。自定义实现通常包括以下组件: - 数据结构:用于存储数据集和决策树结构,如ArrayList、HashMap等。 - 分类器:包含构建和预测功能,用于...

    java 决策树Demo1

    总结起来,`java 决策树Demo1`是一个展示如何在Java环境中使用决策树算法的实例。通过理解决策树的工作原理,选择合适的算法库(如Weka),并掌握训练、评估和优化模型的方法,开发者可以有效地运用决策树解决分类和...

    决策树java

    在Java中实现决策树,我们可以利用各种库,如Weka、Apache Mahout或者自定义代码。下面我们将深入探讨决策树的基本原理、Java实现的关键步骤以及如何处理试验数据。 决策树的构建主要基于以下步骤: 1. **选择特征...

    用java做的决策树哦!感觉还不错!

    - **CART算法**:用于生成二叉决策树,可应用于分类和回归任务,基于基尼不纯度或Gini指数。 2. **Java实现决策树的关键步骤**: - **数据预处理**:清洗数据,处理缺失值,将连续值离散化,将类别数据编码为...

    libsvm-2.88-string.zip_svm java 分类_决策树SVM

    如果需要在libsvm基础上使用决策树,可能需要结合其他库或者使用其他工具。 总的来说,libsvm-2.88-string.zip为Java开发者提供了一个高效的SVM实现,尤其适合处理字符串特征的分类任务。与此同时,了解并结合决策...

    Mahout RandomForest Example使用步骤

    本篇文章将详细解释如何在 Mahout 中使用随机森林进行数据分类。 首先,我们需要了解随机森林的基本概念。随机森林是由多个决策树组成的集合,每个决策树对数据进行独立预测,最后通过投票或平均来得出最终结果。...

    JAVA-决策树

    决策树是一种常用的数据挖掘技术,用于分类和回归分析。在JAVA编程环境中,我们可以利用各种库来实现决策树算法。此项目“JAVA-决策树”显然提供了用JAVA编写的决策树算法,它具备从网络上下载数据文件并自动生成...

    【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解 -- 配套源码

    在本教程中,我们将深入探讨如何使用Apache Mahout框架构建一个贝叶斯文本分类器。Apache Mahout是一个基于Hadoop的机器学习库,它提供了一系列的算法,包括聚类、分类和协同过滤,用于大数据分析。贝叶斯分类器是...

    Mahout源码

    Apache Mahout是一个基于Java的开源机器学习库,它提供了丰富的算法和工具,用于构建智能应用程序,特别是推荐系统、分类和聚类。这个压缩包文件"Mahout"很可能包含了Mahout项目的源代码,允许开发者深入理解其内部...

    mahout-core-0.7-job.jar

    用于测试mahout中的决策树 ,即Partial Implementation用到的测试jar包。所谓的测试其实也只是把相应的数据可以打印出来,方便单机调试,理解算法实现原理而已。

    能找到的最全的 mahout in action中文版

    Mahout支持多种分类算法,如朴素贝叶斯、决策树等,适用于垃圾邮件检测、图像识别等多种应用。 【可伸缩性】Mahout的设计目标之一是处理大规模数据,它利用Java和Hadoop的分布式计算能力,使得机器学习算法能够在多...

    mahout源码

    首先,使用jieba对新闻文本进行分词,然后将分词结果转化为Mahout的向量表示,接着利用训练好的朴素贝叶斯模型进行分类。通过对大量新闻数据的处理和学习,系统能够自动识别出新闻的主题类别,提高信息检索和推荐的...

    mahout 简介,中文

    Mahout支持多种分类算法,包括朴素贝叶斯分类器、支持向量机(SVM)和决策树等。这些算法可以用于文本分类、情感分析和垃圾邮件过滤等多种场景。例如,朴素贝叶斯分类器假设特征之间相互独立,基于贝叶斯定理和特征...

    mahout 实例

    Random Forest则是构建多个决策树并集成其结果,提高预测准确性。初学者在学习这些算法时,不仅可以理解它们的工作原理,还能掌握如何应用到实际问题中。 接下来,我们关注**相似度计算**。在推荐系统和其他领域,...

    mahout-0.3.tar

    2. **分类算法**:包括朴素贝叶斯、决策树、随机森林等,用于将数据归类到预定义的类别中。例如,垃圾邮件过滤器就是分类算法的一个应用。 3. **聚类算法**:如K-Means、Fuzzy K-Means、Canopy Clustering,用于将...

    大数据Mahout实践指南

    分类和回归则用于预测离散或连续的目标变量,如朴素贝叶斯、决策树和线性回归等。每个算法都会通过实例来演示如何在Mahout中实现,并解释其背后的数学原理。 除了基本的机器学习算法,书中还会涉及深度学习的概念,...

    mahout-distribution-0.9.tar.gz

    2. **分类与回归**:Mahout支持决策树(如C4.5)、随机森林和感知机等算法,用于对数据进行分类和预测。 3. **聚类**:包括K-Means、Fuzzy K-Means、Canopy Clustering、DBSCAN等算法,可用于将相似的数据点分组到...

Global site tag (gtag.js) - Google Analytics