例子Breiman

奔跑的羚羊

浏览: 579378 次
性别:
来自: 北京

最近访客更多访客>>

sagadan

rayoo

yyq5369

linziyuu

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

mahout

Hadoop Apache 算法 F#

介绍
快速的介绍怎么运行Breiman例子。在Breiman页实现了测试步骤描述。
如下是基础的算法：
。重复I次迭代
。每次迭代执行：
     。有10%的数据从测试数据中分离
     。编译2个独立的森林，用来训练集合。一个使用m=int(log2(M)+1) （称为随机输入），另外一个使用m=1（称为单一输入）
     。选择一个森林，给出最低的误差结果估计，和计算测试误差结果
     。计算测试的误差结果，使用单一输入森林，这里证明平坦的m=1，给予每个森林比较大的m值做比较
     。计算平均测试误差，使用每个森林中的树。这里将指出怎样执行一个单一决策树

步骤
下载数据
#lass : http://archive.ics.uci.edu/ml/datasets/Glass+Identification
# breast cancer : http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
# diabetes : http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
# sonar : http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)
# ionosphere : http://archive.ics.uci.edu/ml/datasets/Ionosphere
# vehicle : http://archive.ics.uci.edu/ml/datasets/Statlog+(Vehicle+Silhouettes)
# german : http://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

将数据放到HDFS

$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata

编译
进到$MAHOUT_HOME/，执行

mvn install -DskipTests

生成数据文件
根据glass dataset (glass.data)，执行

$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/core/target/mahout-core-<VERSION>-job.jar org.apache.mahout.df.tools.Describe -p testdata/glass.data -f testdata/glass.info -d I 9 N L

运行例子

$HADOOP_HOME/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-<VERSION>-job.jar org.apache.mahout.df.BreimanExample -d testdata/glass.data -ds testdata/glass.info -i 10 -t 100

选择构建100树（参数-t），重复测试10次迭代（参数-i）

原文地址：https://cwiki.apache.org/confluence/display/MAHOUT/Breiman+Example

分享到：

2011-02-24 16:16
浏览 2503
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

例子Breiman

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

例子Breiman

评论

发表评论

相关推荐

Mahout基于hadoop的推荐器（Recommender）

怎样适当的评估分布式Mahout

分类Classification-维基百科例子（Wikipedia Bayes Example）

分类Classification-二十个新闻组（Twenty Newsgroups）

聚类Clustering - 可视化样本聚类（Visualizing Sample Clusters）

聚类Clustering -Clustering of synthetic control data

最近访客更多访客>>