1. mahout seqdirectory
$ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathname for output.(<Text,Text>Sequence File) -ow
功能: 将原始文本数据集转换为< Text, Text > SequenceFile
2. mahout seq2sparke
功能: Convert and preprocesses the dataset(<Text,Text> SequenceFile) into a < Text, VectorWritable > SequenceFile containing term frequencies for each document.
即根据Sequence File转换为tfidf向量文件
说明:If we wanted to use different parsing methods or transformations on the term frequency vectors we could supply different options here e.g.: -ng 2 for bigrams or -n 2 for L2 length normalization
mahout seq2sparse --output (-o) output The directory pathname for output. --input (-i) input Path to job input directory. --weight (-wt) weight The kind of weight to use. Currently TF or TFIDF. Default: TFIDF --norm (-n) norm The norm to use, expressed as either a float or "INF" if you want to use the Infinite norm. Must be greater or equal to 0. The default is not to normalize --overwrite (-ow) If set, overwrite the output directory --sequentialAccessVector (-seq) (Optional) Whether output vectors should be SequentialAccessVectors. If set true else false --namedVector (-nv) (Optional) Whether output vectors should be NamedVectors. If set true else false
-i Sequence File文件目录
-o 向量文件输出目录
-wt 权重类型,支持TF或者TFIDF两种选项,默认TFIDF
-n 使用的正规化,使用浮点数或者"INF"表示,
-ow 指定该参数,将覆盖已有的输出目录
-seq 指定该参数,那么输出的向量是SequentialAccessVectors
-nv 指定该参数,那么输出的向量是NamedVectors
3. mahout split
功能:Split the preprocessed dataset into training and testing sets.
将预处理的tfidf向量集转换为training和testing向量集
$ mahout split -i ${WORK_DIR}/20news-vectors/tfidf-vectors --trainingOutput ${WORK_DIR}/20news-train-vectors --testOutput ${WORK_DIR}/20news-test-vectors --randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential
说明:如上是将向量数据集分为训练数据和检测数据,以随机40-60拆分
3. mahout trainnb
功能:训练分类器
mahout trainnb --input (-i) input Path to job input directory. --output (-o) output The directory pathname for output. --alphaI (-a) alphaI Smoothing parameter. Default is 1.0 --trainComplementary (-c) Train complementary? Default is false. --labelIndex (-li) labelIndex The path to store the label index in --overwrite (-ow) If present, overwrite the output directory before running job --help (-h) Print out help --tempDir tempDir Intermediate output directory --startPhase startPhase First phase to run --endPhase endPhase Last phase to run
-i 输入路径
-o 输出路径
-a
-c 补偿性训练
-li label index文件的目录
-ow 指定该参数,删除输出目录
tempDir MapReduce作业的中间结果
startPhase 运行的第一个阶段
endPhase 运行的最后一个阶段
4. mahout testnb
功能:检验Bayes分类器
mahout testnb --input (-i) input Path to job input directory. --output (-o) output The directory pathname for output. --overwrite (-ow) If present, overwrite the output directory before running job --model (-m) model The path to the model built during training --testComplementary (-c) Test complementary? Default is false. --runSequential (-seq) Run sequential? --labelIndex (-l) labelIndex The path to the location of the label index --help (-h) Print out help --tempDir tempDir Intermediate output directory --startPhase startPhase First phase to run --endPhase endPhase Last phase to run
-i 输入路径
-o 输出路径
-ow 覆盖输出目录
-c
相关推荐
Hadoop是一个开源的分布式计算框架,而Mahout是基于Hadoop的数据挖掘库,专注于机器学习算法。这两者的结合在大数据分析和预测模型构建中具有广泛的应用。 在“hadoop2.7.3+mahout0.9问题集”中,我们可能遇到的...
在大数据分析领域,Apache Mahout 是一个非常重要的开源库,专注于机器学习和数据挖掘算法的实现。Mahout 基于 Apache Hadoop,能够处理大规模数据集,为开发人员提供可扩展的、分布式计算环境下的机器学习算法。...
Apache Mahout 是一个开源机器学习库,专注于大规模数据集的算法实现。该库由Java编写,并采用Maven作为构建工具,提供了一系列用于构建智能应用的高效算法。本文将深入探讨Mahout 0.7版本的源码结构、核心功能及其...
Apache Mahout 是一个基于 Hadoop 的机器学习库,它提供了多种机器学习算法,包括聚类、分类和推荐系统。在本教程中,我们将专注于 Mahout 0.9 版本中的 KMeans 算法测试,这是一个无监督的学习方法,用于将数据集中...
在本文中,我们将深入探讨如何对 Apache Mahout 中的基于物品(item-based)推荐系统进行改造,以提高其灵活性和可扩展性。基于物品的推荐系统主要由两个关键步骤组成:物品相似度计算和根据用户评分历史预测未知...
文件列表中的"hbase.txt"可能包含了HBase的安装指南、配置参数、操作命令或常见问题解答;"pig.txt"可能涵盖了Pig Latin语法、Pig UDF(用户自定义函数)的开发以及Pig在实际数据分析中的应用示例;"hadoop.txt"可能...
HBase是基于Hadoop的一个分布式、可扩展的NoSQL数据库。它是Google Bigtable的开源实现,专为存储和检索海量数据而设计。HBase利用Hadoop HDFS作为底层数据存储,并使用MapReduce来处理HBase中的大量数据。HBase的...
- `getUniqueFile(TaskAttemptContext context, String name, FileWriteMode mode, Progressable progress)`:根据上下文和其他参数获取一个唯一的文件名称。 - `getOutputCommiter(TaskAttemptContext context)`:...
以下是基于该教程和标签的详细知识点讲解: 1. **Hadoop介绍**:Hadoop是Apache基金会开源的分布式计算框架,其设计目标是处理和存储大规模数据。它由两个主要部分组成:分布式文件系统(HDFS)和并行计算模型...
它基于Google的MapReduce编程模型和GFS分布式文件系统,具有高容错性、可扩展性和高效能的特点。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,这两个部分共同构成了分布式计算的基础。 ...
895.2.1 Reduce侧的联结 905.2.2 基于DistributedCache的复制联结 985.2.3 半联结:map侧过滤后在reduce侧联结 1015.3 创建一个Bloom filter 1025.3.1 Bloom filter做了什么 1025.3.2 实现一个Bloom filter 1045.3.3...
通过`less`命令查看文件的一部分,可以快速浏览文件内容。 ```bash [zkpk@master ~]$ cd /home/zkpk/resources/sogou-data/500wless [zkpk@master 500w]$ less /home/zkpk/resources/sogou-data/500w/sogou.500...
1.2.3 CLI 基本命令 1.2.4 运行MapReduce 作业 1.3 本章小结 第2 部分 数据逻辑. 2 将数据导入导出Hadoop. 2.1 导入导出的关键要素 2.2 将数据导入Hadoop . 2.2.1 将日志文件导入Hadoop 技术...
以及基于这些项目的具体应用,如Mahout、X-Rime、Crossbow、Ivory等;此外还有数据交换、工作流等外围支撑系统,如Chukwa、Flume、Sqoop、Oozie等。 - **Hadoop的核心项目**: - **Common项目**: 为Hadoop其他项目...
### 基于VM+CentOS+hadoop2.7搭建Hadoop完全分布式集群的知识点解析 #### 一、概述 本文旨在详细介绍如何使用VMware Workstation(简称VM)结合CentOS 6.5操作系统来搭建Hadoop 2.7的完全分布式集群。此文档是根据...
- **基于Hadoop的应用项目**:例如Mahout(机器学习库)、X-Rime(实时流处理框架)等。 - **数据交换和工作流管理系统**:如Chukwa、Flume、Sqoop(数据导入导出工具)以及Oozie(工作流调度器)等。 #### 三、...