`

Mahout Creating Vectors from Weka's ARFF Format

 
阅读更多

转自: https://cwiki.apache.org/MAHOUT/creating-vectors-from-wekas-arff-format.html

Introduction

Mahout now has capabilities for converting Weka's ARFF (2.1) format to Mahout's Vector format.

Running the Converter

ARFF files are easily converted using the org.apache.mahout.utils.arff.Driver program. The input arguments can be found by running it with the --help argument which produces results similar to:

Usage:
 [--input <input> --output <output> --max <max> --help --dictOut <dictOut>
--outputWriter <outputWriter> --delimiter <delimiter>]
Options
  --input (-d) input                  The file or directory containing the ARFF
                                      files.  If it is a directory, all .arff
                                      files will be converted. (Mandatory parameter)
  --output (-o) output                The output directory.  Files will have
                                      the same name as the input, but with the
                                      extension .mvc (Mandatory parameter)
  --max (-m) max                      The maximum number of vectors to output.
                                      If not specified, then it will loop over
                                      all docs (Optional parameter)
  --help (-h)                         Print out help (Optional parameter)
  --dictOut (-t) dictOut              The file to output the label bindings
                                      (Mandatory parameter)
  --outputWriter (-e) outputWriter    The VectorWriter to use, either seq
                                      (SequenceFileVectorWriter - default) or
                                      file (Writes to a File using JSON format)
                                      (Optional parameter)
  --delimiter (-l) delimiter          The delimiter for outputing the
                                      dictionary (Optional parameter)

You can use the parameters in its long format like --input or using the equivalent short name -d. From here, running the Driver is as simple as pointing it at the ARFF file:

$MAHOUT_HOME/bin/mahout arff.vector -d ./content/reuters-modapte/ \
      -t ./content/reuters-modapte/output/dict.txt -o ./content/reuters-modapte/output/convert

分享到:
评论

相关推荐

    mahout-core-0.9.jar+mahout-core-0.8.jar+mahout-core-0.1.jar

    这个压缩包包含的是Mahout项目不同版本的核心库,分别是mahout-core-0.9.jar、mahout-core-0.8.jar和mahout-core-0.1.jar。这些版本的差异在于功能的完善、性能的优化以及对新特性的支持。 1. **Mahout核心功能**:...

    mahout所需jar包

    **马哈多(Mahout)库的概述** 马哈多(Mahout)是Apache软件基金会的一个开源项目,专注于提供可扩展的机器学习库。它基于Hadoop,这意味着它能够利用分布式计算来处理大规模数据集。 Mahout的目标是帮助开发人员...

    [Mahout] Windows下Mahout单机安装

    【标题】:“Mahout在Windows下的单机安装教程” 【内容详解】 Apache Mahout是一个开源机器学习库,它提供了一系列的可扩展、分布式算法,涵盖了推荐系统、分类、聚类等多个机器学习领域。在Windows环境下安装...

    maven_mahout_template-mahout-0.8

    《Apache Maven与Mahout实战:基于maven_mahout_template-mahout-0.8的探索》 Apache Maven是一款强大的项目管理和依赖管理工具,广泛应用于Java开发领域。它通过一个项目对象模型(Project Object Model,POM)来...

    mahout 原理 简介

    ### Mahout原理简介 #### 一、Mahout概述与背景 Apache Mahout 是一个高度可扩展的机器学习库,由 Apache 软件基金会维护。它最初作为一个子项目于2008年由Lucene项目管理委员会宣布成立,并于2010年成为Apache...

    mahout源码

    《深入理解Mahout:朴素贝叶斯分类与中文分词技术解析》 Apache Mahout是一款基于Java开发的机器学习库,旨在提供可扩展的、高效的算法,用于数据挖掘和模式识别。在大数据时代,Mahout已经成为数据科学家和工程师...

    Mahout源码

    **Apache Mahout 源码解析** Apache Mahout 是一个基于Java的开源机器学习库,旨在简化大规模数据集上的机器学习算法实现。它为开发者提供了一系列预构建的、可扩展的机器学习算法,包括分类、聚类、推荐系统以及...

    Mahout in Action 2012

    Apache Mahout是一个Apache开源数据挖掘和机器学习项目,它提供了一系列基于Java的工具和库,用于构建可扩展的推荐系统、聚类算法以及其他机器学习应用。Mahout的目标是简化数据挖掘任务的实现,使其不仅仅局限于...

    mahout Algorithms源码分析

    Mahout是一个Apache Software Foundation(ASF)旗下的开源项目,主要用途是提供可扩展的机器学习算法的实现,帮助开发人员更方便快捷地创建智能应用程序。Mahout包含了很多算法的实现,包括聚类(Clustering)、...

    mahout api 学习资料

    mahout_help,mahout的java api帮助文档,可以帮你更轻松掌握mahout

    大数据Mahout实践指南

    《大数据Mahout实践指南》是一本深入探讨大数据分析与机器学习技术的专业书籍,尤其侧重于Apache Mahout框架的应用。Mahout是Apache软件基金会的一个开源项目,致力于提供可扩展的、易于使用的机器学习库,用于构建...

    MAHOUT实战(中文版)

    《MAHOUT实战》这本书是关于Apache Mahout机器学习库的中文版指南,旨在帮助读者理解和应用Mahout进行大数据分析和构建智能应用。Apache Mahout是一个开源项目,它提供了可扩展的机器学习算法,用于分类、聚类和推荐...

    mahout 简介,中文

    Mahout提供了这些相似度度量的实现,使得开发人员能够灵活选择最适合其应用场景的方法。 ### 集群 集群是无监督学习的一种形式,其目的是将一组对象分为几个类别或“集群”,使得同一集群内的对象彼此相似,而不同...

    如何成功运行Apache Mahout的Taste Webapp-Mahout推荐教程-Maven3.0.5-JDK1.6-Mahout0.5

    根据给定的文件信息,我们可以提炼出以下几个与Apache Mahout及其Taste Webapp相关的知识点: 1. Apache Mahout简介 Apache Mahout是一个开源项目,隶属于Apache软件基金会(ASF),专门提供可扩展的机器学习算法...

    mahout聚类算法

    Mahout 聚类算法 Mahout 聚类算法是数据挖掘和机器学习领域中的一种重要算法,它可以将相似的数据点聚集在一起,以便更好地理解和分析数据。Mahout 聚类算法可以分为多种类型,如 Canopy、KMeans、Fuzzy-KMeans、...

    Mahout最新基础依赖包.rar

    **Apache Mahout简介** Apache Mahout 是一个开源项目,它为大数据分析提供了机器学习库。这个库主要关注三个核心领域:推荐系统、分类和聚类。Mahout 的目标是使开发人员能够轻松构建智能应用程序,利用分布式计算...

    Mahout tutorial

    Apache Mahout是一个开源项目,主要用于产生可扩展的机器学习算法。该项目的简短教程提供了对Mahout的基本介绍,并解释了如何使用它来创建推荐系统以及组织文档以形成更易于使用的群集。教程为有志于学习Mahout基础...

Global site tag (gtag.js) - Google Analytics