引用:http://blog.163.com/jiayouweijiewj@126/blog/static/17123217720113115027394/
实现包括三部分:The Trainer(训练器)、The Model(模型)、The Classifier(分类器)
1、训练
首先,要对输入数据进行预处理,转化成Bayes M/R job读入数据要求的格式,即训练器输入的数据是KeyValueTextInputFormat格式,第一个字符是类标签,剩余的是特征属性(即单词)。以20个新闻的例子来说,从官网上下载的原始数据是一个分类目录,下面每个文件夹名就是类标签,里面是属于此类的一些文档(一个文件是一篇文章)。mahout通过org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups对数据进行预处理,完成的工作是对于原始的一个分类目录下面的所有文件,依次遍历,并将目录名作为类别名,就这样完成了inputDir-->outputFile的转变。如果要处理html文件的话,那么就需要在BayesFileFormatter调用html clean,extract body text的过程,生成cleaned text。
PrepareTwentyNewsgroups调用org.apache.mahout.classifier.BayesFileFormatter和org.apache.lucene.analysis.standard.StandardAnalyzer进行分析处理,将数据转换成了:类标签作为一个文件的名字,文件里每一个行(一个回车算一行)是包含在此类中的一篇文章(格式是:类标签 一篇文章中的所有单词)。
BayesFileFormatter的作用是把一个目录里的所有文件转换成一个文件,label \t content其中的文件内容全部经过tokenize,词之间加入空格,存入content。BayesFileFormatter.collapse的作用是将一个目录的所有文件加上label处理成MapReduce所需要的按行处理的文件格式,变成1个文件。
其次,调用org.apache.mahout.classifier.bayes.TrainClassifier进行训练,结果生成newsmodel。
这个类会根据命令行参数调用两个训练器:trainCNaiveBayes和trainNaiveBayes,其中trainCNaiveBayes函数调用CBayesDriver类;trainNaiveBayes调用BayesDriver类。
这里只分析org.apache.mahout.classifier.bayes.mapreduce.bayes.BayesDriver类,它实现了BayesJob接口,在runJob函数里调用4个map/reduce作业类:
第一个:BayesFeatureDriver负责Read the features in each document normalized by length of each document
第二个:BayesTfIdfDriver负责Calculate the TfIdf for each word in each label
第三个:BayesWeightSummerDriver负责alculate the Sums of weights for each label, for each feature
第四个:BayesThetaNormalizerDriver负责:Calculate the normalization factor Sigma_W_ij for each complement class
以20-news的例子分别分析这四个类:
⑴BayesFeatureDriver
所在包:package org.apache.mahout.classifier.bayes.mapreduce.common;
输入格式:KeyValueTextInputFormat.class
输出格式:BayesFeatureOutputFormat.class
输出key类型:StringTuple.class
输出value类型:DoubleWritable.class
Map:BayesFeatureMapper.class
Reduce:BayesFeatureReducer.class
注意:BayesFeatureDriver可以独立运行,默认的输入和输出:(没有试过,不知道可不可以独立运行,里面有main函数,应该是可以的,不过本人水平有限,目前不会)
input=new Path("/home/drew/mahout/bayes/20news-input");
output=new Path("/home/drew/mahout/bayes/20-news-features");
p=new BayesParameters(1) gramsize默认为1
BayesFeatureOutputFormat继承了MultipleOutputFormat,定义了产生的四个文件路径及名字,文件的格式还是SequenceFileOutputFormat.:
$OUTPUT/trainer-wordFreq
$OUTPUT/trainer-termDocCount
$OUTPUT/trainer-featureCount
$OUTPUT/trainer-docCount
①BayesFeatureMapper的输出为:
一行一个map,根据数据处理的格式即一篇文章一个map,以下的label指类标签,token是属性即单词,dKJ是某token在本篇文章中出现的次数,∑dKJ2是本篇文章中所有token出现次数的平方和,以下及后面的表格是觉得看着清楚自己画的,输出时只是里面的内容,例如:_WT,label,token空格value的值
key
value
_WT,label,token
Log[(1.0+dKJ)/(∑dKJ2)1/2]即为某词在一个文档中的TF值
通俗点就是:Log[(1.0+某属性在本篇文章中出现的次数)/(本篇文章中所有属性出现次数的平方和)1/2]
_DF,label,token
1.0
_FC,token
1.0
_LC,label
1.0
②BayesFeatureReducer的输出为:
相同的key放在一个reduce里执行合并
key
value
输出
_WT,label,token
∑Log[(1.0+dKJ)/(∑dKJ2)1/2]即某类中某属性的TF值
trainer-wordFreq
_DF,label,token
某label中出现某token的文档数
trainer-termDocCount
_FC,token
所有训练集文章中出现某token的文档数
trainer-featureCount
_LC,label
某label下的文档数
trainer-docCount
_FT,token
与_FC的value一样
没输出且只在mhaout-0.4里出现这部分计算,0.3里没有
⑵BayesTfIdfDriver
输入格式:SequenceFileInputFormat.class
输出格式:BayesTfIdfOutPutFormat.class
输出key类型:StringTuple.class
输出value类型:DoubleWritable.class
输入路径:就是第一个map/reduce生成的trainer-wordFreq、trainer-termDocCount、trainer-featureCount文件
输出:trainer-tfIdf文件
Map:BayesTfIdfMapper.class
Reduce:BayesTfIdfReducer.class
根据BayesFeatureReducer的输出文件计算TF-IDF值,但是只调用了以上的trainer-wordFreq、trainer-termDocCount、trainer-featureCount三个文件,计算完毕后会删除这些中间文件(目前还没搞懂在哪删除的,只看见bayesDriver里面有把),并生成两个文件trainer-tfIdf和trainer-vocabCount(BayesTfIdfOutPutFormat里有)。
①BayesTfIdfMapper的输出为:
TF值是调用trainer-wordFreq中的value
Idf=某类下的文档数/某类下出现该token的文档数
其中某类下出现该token的文档数是调用trainer-termDocCount中的value
key
value
_WT,label,token
TF值
_WT,label,token
logidf
_FS
1.0
②BayesTfIdfReducer的输出为:
key
value
输出
_WT,label,token
TF×logidf
trainer-tfidf
_FS
属性总数
trainer-VocabCount
⑶BayesWeightSummerDriver
输入文件格式:SequenceFileInputFormat.class
输出文件格式:BayesWeightSummerOutputFormat.class
输出key:StringTuple.class
输出value:DoubleWritable.class
输入路径:是第二个map/reduce生成的trainer-tfIdf文件
输出:trainer-weights文件
Map:BayesWeightSummerMapper.class
Reduce:BayesWeightSummerReducer.class
这里只调用了第二个map/reduce生成的trainer-tfIdf,没有调trainer-VocabCount
①BayesWeightSummerMapper的输出为:
key
value
_SJ,token
TFIdf值
_SK,label
TFIdf值
_SJSK
TFIdf值
②BayesWeightSummerReducer的输出为:
key
value
输出
_SJ,token
某属性的全部TFIdf总和
Sigma_j
_SK,label
某类下的所有属性的TFIdf总和
Sigma_k
_SJSK
所有的TFIdf值
Sigma_kSigma_j
⑷BayesThetaNormalizerDriver
输入文件格式:SequenceFileInputFormat.class
输出文件格式:SequenceFileOutputFormat.class
输出key:StringTuple.class
输出value:DoubleWritable.class
输入路径: 第二个map/reduce生成的trainer-tfIdf/下的trainer-tfIdf和trainer-VocabCount,以及trainer-weights/的Sigma_k和Sigma_kSigma_j
输出:trainer-thetaNormalizer文件
①BayesWeightSummerMapper的输出为:
Log里的分子中TFIdf是某类下某属性的TFIdf值,分母中VocabCount是属性总数
key
value
_LTN,label
Log[(TFIdf+1.0)/(sigma_k+VocabCount)]
②BayesWeightSummerReducer的输出为:
将Map的结果合并
key
value
_LTN,label
ΣLog[(TFIdf+1.0)/(sigma_k+VocabCount)]
分享到:
相关推荐
在本案例中,我们将深入探讨如何使用Apache Mahout这一强大的机器学习库来构建一个贝叶斯文本分类器。Apache Mahout是一个开源项目,旨在提供可扩展的、易于使用的机器学习算法,尤其在大数据领域应用广泛。而朴素...
在Mahout中,Naive Bayes分类器实现了两种版本:Multinomial Naive Bayes和Complement Naive Bayes。前者适用于离散特征,后者则适用于稀疏数据。对于Kddcup 1999数据集,由于其特征主要是离散的,我们通常会选择...
在大数据时代,Mahout已经成为数据科学家和工程师们的重要工具,尤其在文本分析、推荐系统和分类任务中扮演着关键角色。本篇将深入探讨Mahout中的朴素贝叶斯分类以及中文分词这两个核心功能。 一、Mahout与朴素...
2. **分类与聚类**:Mahout支持多种分类算法,如Naive Bayes和Random Forest,以及聚类算法,如K-Means和Fuzzy K-Means。这些算法可以帮助对数据进行预处理,找出数据的内在结构和模式。 3. **流式计算**:随着...
1. **分类(Classification)**:Mahout提供了如朴素贝叶斯(Naive Bayes)、决策树(Decision Trees)和随机森林(Random Forests)等算法,用于预测离散或连续的目标变量。这些算法广泛应用于垃圾邮件过滤、文本...
Mahout支持多种分类算法,如Naive Bayes、Random Forest和Perceptron。Naive Bayes是一种基于贝叶斯定理的简单而有效的分类方法,适用于文本分类。Random Forest则是构建多个决策树并集成其结果,提高预测准确性。...
在本案例中,我们将深入探讨如何使用Apache Mahout框架构建一个基于贝叶斯的文本分类器。Mahout是一个开源的机器学习库,它为开发者提供了大量先进的数据挖掘和机器学习算法,包括分类、聚类和协同过滤等。贝叶斯...
- **分类(Classification)**: Mahout包含了多种分类算法,如朴素贝叶斯(Naive Bayes)、决策树(Decision Trees)和随机森林(Random Forests),这些算法常用于文本分类和垃圾邮件过滤等场景。 - **聚类...
2. **分类**:Mahout支持多种监督学习算法,如随机森林(Random Forest)和朴素贝叶斯(Naive Bayes)。这些算法在处理分类问题时表现出色,如垃圾邮件过滤、情感分析和文档分类等。 3. **协同过滤**:在推荐系统中...
Apache Mahout是一个开源机器学习库,它为大数据分析提供了丰富的算法和工具,旨在帮助开发者构建智能应用程序。在标题“Mahout-0.9-jar包”中,提及的是该库的一个特定版本——0.9,这通常意味着包含了该版本的所有...
3. **分类(Classification)**:如随机森林(Random Forest)、朴素贝叶斯(Naive Bayes)等,用于根据已知特征对数据进行分类。这些模型在垃圾邮件过滤、情感分析等方面表现出色。 三、分布式计算与Hadoop集成 ...
2. **分类**:Mahout支持多种分类算法,如朴素贝叶斯(Naive Bayes)、决策树(Decision Trees)和随机森林(Random Forest)。这些算法可以用于文本分类、情感分析和其他预测性建模任务。 3. **聚类**:包括K-...
Mahout支持多种分类算法,如朴素贝叶斯(Naive Bayes)、决策树(Decision Trees)、随机森林(Random Forests)等。这些算法可用于文本分类、垃圾邮件过滤等任务,帮助自动对数据进行预定义的类别划分。 **4. 聚类...
Mahout库内包含了多种用于文本分析的工具和算法,比如SVD(奇异值分解)用于降维,或者Naive Bayes和Random Forest等分类算法。在这个数据集上,我们可以训练这些模型,然后利用交叉验证来评估它们的性能。例如,...
- **分类**:包括朴素贝叶斯(Naive Bayes)、决策树(Decision Trees)等,用于将数据分配到预定义的类别中。 - **聚类**:如K-Means算法,用于将数据点分成多个群组,使同组内的数据点相互接近,而不同组的数据...
在分类部分,书中可能会讲解Mahout支持的各种分类算法,如朴素贝叶斯(Naive Bayes)、决策树(Decision Trees)和随机森林(Random Forests)。这些算法广泛应用于文本分类和垃圾邮件过滤等领域。 在聚类方面,书...
例如,你可以看到如何使用Mahout构建一个电影推荐系统,分析IMDb数据库中的用户评分数据,应用协同过滤算法进行推荐。此外,书中还会讲解如何处理稀疏数据、优化算法性能以及评估推荐效果。 四、Hadoop集成 Mahout...