介绍
这个Mahout例子的源码来自一个分类维基百科数据的导出工具,可以Naive贝叶斯或者附加的 Naive贝叶斯在Mahout的实现。下面将描述这个例子,导出维基的数据,然后分类到不同的块。这些块是根据国家进一步分类的。根据这些分割,分离器训练使能够预测,一个未曾看到过的文章被分类到那个国家。
运行例子
1.下载维基百科
数据
2.解压文件,得到enwiki-latest-pages-articles.xml
3.创建目录$MAHOUT_HOME/examples/temp,拷贝这个xml到这里
4.牵出数据
$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64
我们强烈的建议,备份这个结果到另外一个目录,这样下次就不需要同样操作这个步骤如果发生意外情况
5.创建chunks到HDFS,进行如下核实
hadoop fs -ls wikipedia/chunks
将列出所有的文件,如chunk-0001.xml...
6.基于分割的维基百科数据,创建国家
$MAHOUT_HOME/bin/mahout wikipediaDataSetCreator -i wikipedia/chunks -o wikipediainput -c $MAHOUT_HOME/examples/src/test/resources/country.txt
7.验证创造出的数据
hadoop fs -ls wikipediainput
你将能够看到part-r-00000这个文件
8.Train分离器
$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel
这个模型文件将能够从HDFS上的wikipediamodel目录获取到
9.Test分离器
$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput
原文连接:https://cwiki.apache.org/confluence/display/MAHOUT/Wikipedia+Bayes+Example
分享到:
相关推荐
Chinese-Text-Classification-Pytorch-master。 数据齐全,说明文档详细。点击即用! # 训练并测试: # TextCNN python run.py --model TextCNN # TextRNN python run.py --model TextRNN # TextRNN_Att python ...
本项目"**cnn-text-classification-tf-master**"是基于TensorFlow实现的一个文本分类的示例,它展示了如何利用CNN来理解和解析文本数据。 1. **TensorFlow**:TensorFlow是由Google Brain团队开发的开源库,用于...
PyTorch-Image-Models-Multi-Label-Classification-main.zip
在这个项目"Urban-Sound-Classification-VS-master"中,我们看到的是一个使用Visual Studio 2017开发的城市环境声音识别系统。这个系统的目标是训练模型来区分不同类型的都市噪声,如交通噪音、人声、动物叫声等,...
标题中的"RNN_CNN"表明这是一个结合循环神经网络(Recurrent Neural Network, RNN)与卷积神经网络(Convolutional Neural Network, CNN)的项目,用于中文文本分类。在描述中,我们得知该实现是用TensorFlow完成的...
本项目“leaf-classification-master.zip”提供了一个使用MATLAB进行树叶分类的实例,通过深度学习中的卷积神经网络(CNN)技术,实现了对树叶图像的高效识别,达到了93%的分类准确率。接下来,我们将详细探讨这个...
朴素贝叶斯分类 描述 该存储库包含一些演示,这些演示在我的名... docker run -p 8888:8888 -e ENABLE_JUPYTER_LAB=YES naive-bayes 这将提示您连接到 (假设您将端口保持不变),并将对笔记本电脑和数据进行预准备。
"Chinese-Text-Classification-Pytorch-master.zip"这个压缩包包含了完整的代码资源,便于读者实践和学习。 首先,文本分类的核心是将非结构化的文本数据转化为可计算的向量表示。这通常通过词嵌入(Word Embedding...
总的来说,“rnn-text-classification-master”项目为我们提供了一个实践LSTM进行文本分类的实例。通过这个项目,我们可以深入理解RNN的工作原理,学习如何构建和训练这样的模型,并掌握文本预处理和性能评估的关键...
本项目"image-classification-cervical-cancer-master.zip"就是这样一个实例,它提供了一个用于宫颈癌肿瘤图片分类的代码库,旨在帮助研究者和开发者进行医疗图像识别与分析,提升诊断效率和准确性。 首先,我们要...
标题 "Bert-Chinese-Text-Classification-Pytorch-master.zip.zip" 暗示这是一个包含BERT(Bidirectional Encoder Representations from Transformers)模型的中文文本分类项目,基于PyTorch实现。这个压缩包提供了...
【标题】"Bert-Pytorch-TextClassification-master" 是一个基于PyTorch实现的BERT模型在文本分类任务上的应用项目。该项目的核心是利用Transformer架构中的预训练模型BERT(Bidirectional Encoder Representations ...
CNN-for-Sentence-Classification-in-Keras, 在Keras中用于句子分类的卷积神经网络 基于的卷积神经网络在句子分类中的应用训练卷积网络的情感分析。 根据"用于句子分类的卷积神经网络"的,链接 。 灵感由 Denny ...
机器学习分类模型 Introduction-to-ML-Classification-Models-using-scikit-learn-master.zip
在给定的“ecg_classification-master.zip”压缩包中,包含了用Python和MATLAB两种编程语言实现的心电图分类算法。这两种语言在数据科学和工程领域都非常流行,MATLAB以其强大的数值计算能力而著称,Python则因其...
基于分词与BP网络的文本分类 首先下载整个文件,BP文本分类-语义特征提取.rar主要存放了相关的数据集 代码主要包括: 1.特征提取 首先对文本信息进行分词处理,采用基于字符串匹配的方法: 依次截取一到多个词,...
Kidney-Tumor-classification-DL-using-MLFlow-CICD Workflows Update config.yaml Update secrets.yaml [Optional] Update params.yaml Update the entity Update the configuration manager in src config Update ...
在本项目"CNN_Hyperspectral_Classification-master"中,我们将探讨如何利用深度学习中的卷积神经网络(Convolutional Neural Networks, CNN)来处理高光谱图像,进行精细化的分类任务。 首先,我们关注的是高光谱...
在本次的主题“EEG-Emotion-classification-master_merelyts3_said63o_songc4x_DEAP”中,我们将深入探讨如何利用DEAP数据集进行情绪分类,以及涉及到的特征提取和分类方法。 DEAP(Distributed Event-Related ...
Adult数据集分类_Classification-Adult-Data