介绍
快速的介绍怎么运行Breiman例子。在Breiman页实现了测试步骤描述。
如下是基础的算法:
。重复I次迭代
。每次迭代执行:
。有10%的数据从测试数据中分离
。编译2个独立的森林,用来训练集合。一个使用m=int(log2(M)+1) (称为随机输入),另外一个使用m=1(称为单一输入)
。选择一个森林,给出最低的误差结果估计,和计算测试误差结果
。计算测试的误差结果,使用单一输入森林,这里证明平坦的m=1,给予每个森林比较大的m值做比较
。计算平均测试误差,使用每个森林中的树。这里将指出怎样执行一个单一决策树
步骤
下载数据
#lass : http://archive.ics.uci.edu/ml/datasets/Glass+Identification
# breast cancer : http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
# diabetes : http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
# sonar : http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)
# ionosphere : http://archive.ics.uci.edu/ml/datasets/Ionosphere
# vehicle : http://archive.ics.uci.edu/ml/datasets/Statlog+(Vehicle+Silhouettes)
# german : http://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)
将数据放到HDFS
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata
编译
进到$MAHOUT_HOME/,执行
mvn install -DskipTests
生成数据文件
根据glass dataset (glass.data),执行
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/core/target/mahout-core-<VERSION>-job.jar org.apache.mahout.df.tools.Describe -p testdata/glass.data -f testdata/glass.info -d I 9 N L
运行例子
$HADOOP_HOME/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-<VERSION>-job.jar org.apache.mahout.df.BreimanExample -d testdata/glass.data -ds testdata/glass.info -i 10 -t 100
选择构建100树(参数-t),重复测试10次迭代(参数-i)
原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Breiman+Example
分享到:
相关推荐
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,它结合了多个决策树模型以提高预测性能和防止过拟合。在MATLAB中,随机森林被广泛应用于分类和回归任务,尤其在大数据集上的预测分析。下面我们将深入探讨...
Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是...
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,广泛应用于分类和回归任务。在MATLAB环境中,实现随机森林算法可以帮助我们理解其工作原理,并将其应用于实际问题。下面,我们将深入探讨随机森林及其在...
在乳腺癌诊断的例子中,数据可能包含患者的临床特征,如年龄、肿瘤大小、细胞核分级等。通过随机森林模型,我们可以分析这些特征对疾病诊断的影响,并给出患病概率。 总的来说,随机森林因其优秀的性能和易于理解的...
随机森林是由Breiman在2001年提出的,它通过构建大量的决策树并综合它们的预测结果来提高模型的稳定性和准确性。每棵树都是独立训练的,每个训练过程中都会进行以下随机化步骤: 1. **数据子集抽样**:使用...
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,广泛应用于机器学习领域,包括分类和回归任务。这个压缩包包含了在MATLAB环境中实现随机森林算法的代码和相关资源,允许用户在自己的数据集上进行训练和...
随机森林是由Breiman提出的,它的核心是构建多个决策树,并用“随机”来增强模型的多样性和泛化能力。每个决策树都是在随机抽取的样本子集(Bootstrap采样)和特征子集上训练得到的,这使得每棵树都有自己的独特性。...
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,它结合了多个决策树的结果,以提高预测准确性和防止过拟合。在Python中,我们可以使用scikit-learn库来实现随机森林算法。 随机森林的核心原理是通过构建...
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,它结合了决策树的优势并引入了随机性,以提高模型的预测能力和泛化能力。在机器学习领域,随机森林广泛应用于分类和回归任务,具有计算效率高、抗过拟合...
随机森林是一种强大的机器学习算法,它是集成学习方法的典型代表,由Leo Breiman在2001年提出。集成学习是通过结合多个弱预测器来创建一个更强大、更稳健的强预测器的方法。随机森林尤其适用于分类和回归任务,能够...
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,它结合了多个决策树的结果,以提高预测的准确性和稳定性。在Python中,我们可以使用scikit-learn库来实现随机森林模型。这个压缩包文件"RandomForest-code...
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,它结合了决策树的优势并引入了随机化以提高模型的泛化能力。随机森林算法在分类和回归问题上表现出色,广泛应用于机器学习领域。在这个场景中,我们将关注...
这个方法由Leo Breiman于2001年提出,广泛应用于各种机器学习任务,尤其在分类问题上表现出色。 ### 1. 随机森林的主要组成部分 **1.1 决策树基础** 决策树是一种基于树状结构进行决策的算法。每个内部节点表示一...
该方法由Leo Breiman在2001年提出,是bagging(bootstrap aggregating)思想的一个变体,旨在通过减少过拟合并提高模型的泛化能力来提升单一决策树的性能。 在随机森林中,每棵决策树都是通过Bootstrap抽样(有放回...
比如通过天气预报来预测人们是否会去俱乐部打球的例子,我们可以构建一个决策树模型来根据天气状况、气温、相对湿度和风力等特征来预测人们的活动。类似的,通过归纳外国人的特征,构建的决策树可以用于判断某个人...
随机森林是一种集成学习方法,由Leo Breiman在2001年提出,它结合了多个决策树模型以提高预测性能并减少过拟合的风险。在本文中,我们将深入探讨随机森林的工作原理、如何使用Python实现以及相关的编程实践。 首先...