mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile - 摩西莫西 - ITeye博客

`

chakey

浏览: 365805 次
性别:
来自: 水星

最近访客更多访客>>

279135628

Garbage_bird

tc_123

liuxiao723846

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

mafuli007：
【6】MongoDB数据导入和导出
xchd： czwq2001 写道我带hbase执行的时候出现以下异常，不 ...
Hive HBase整合使用
shanxu9198： geilivable
HBase的数据模型
johnnyzuo：不起作用。希望LZ以后自测后再发，这样很容易误导初学者
hadoop自动清除日志文件的配置方法
hongzhi0618：你好，我到这一步的时候，echo "test mes ...
[4] Scribe使用例子3

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile

博客分类：

mahout

lucene Hadoop PHP BBS Apache

阅读更多

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile。

SequenceFile是hadoop中的一个类，允许我们向文件中写入二进制的键值对，具体介绍请看
eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&amp
mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。
（You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.）
使用方法如下：
$MAHOUT_HOME/bin/mahout seqdirectory \
--input <PARENT DIR WHERE DOCS ARE LOCATED> --output <OUTPUT DIRECTORY> \
<-c <CHARSET NAME OF THE INPUT DOCUMENTS> {UTF-8|cp1252|ascii...}> \
<-chunk <MAX SIZE OF EACH CHUNK in Megabytes> 64> \
<-prefix <PREFIX TO ADD TO THE DOCUMENT ID>>

举个例子：
bin/mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset UTF-8

我在Hadoop技术论坛，关于本章的链接是：

http://bbs.hadoopor.com/thread-983-1-1.html

同时提供一个mahout使用的demo的地址：

http://lucene.grantingersoll.com/2010/02/16/trijug-intro-to-mahout-slides-and-demo-examples/

这里面有几个不错的例子。

0
顶

2
踩

分享到：

bin/cassandra-cli报java.net.ConnectExce ... | 把当前目录下所有文件打包,并且移除打包前 ...

2011-03-06 23:07
浏览 6825
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Mahout的电影推荐系统的数据文件: - **数据预处理**：读取这些文件并将其转化为Mahout可处理的格式，这可能涉及到将文本数据转换为数值向量。 - **相似度计算**：使用用户之间的共同评分历史来计算用户之间的相似度，这可以是基于 Pearson 相关系数或...

Mahout RandomForest Example使用步骤: - 使用 Mahout 提供的工具或者自定义代码将 CSV 数据转换为适合 Mahout 处理的格式，例如 SequenceFile 或 HDFS 上的文本文件。 2. **导入数据**： - 将转换后的数据输入到 Hadoop 文件系统中，以便 Mahout 可以...

Mahout源码: - **数据准备**：将原始数据转换成Mahout可以理解的格式，如向量或稀疏矩阵。 - **模型训练**：选择合适的算法，使用训练数据构建模型。 - **模型评估**：通过交叉验证或其他方式评估模型的性能。 - **模型应用**：...

[Mahout] Windows下Mahout单机安装: 等待编译完成后，Mahout的可执行jar文件将会在`mahout-distribution/target`目录下生成。四、设置环境变量为了方便使用Mahout，可以将Mahout的bin目录添加到系统PATH环境变量中。这样，你就可以在任何目录下运行...

mahout所需jar包: **马哈多（Mahout）库的概述** 马哈多（Mahout）是Apache软件基金会的一个开源项目，专注于提供可扩展的机器学习库。它基于Hadoop，这意味着它能够利用分布式计算来处理大规模数据集。 Mahout的目标是帮助开发人员...

Eclipse下编译Mahout项目运行示例: 6. Eclipse项目转换及导入：Mahout项目需要转换成Eclipse的项目格式，这个过程可以通过Maven的eclipse插件来完成，生成Eclipse所需的关联文件，然后导入到Eclipse中。 7. 常见错误处理：在导入项目到Eclipse后，...

mahout-0.3.tar.gz: 1. 准备数据：将原始数据转换为Mahout可读的格式，如CSV或SequenceFile。 2. 构建模型：选择合适的算法，使用训练数据训练模型。 3. 评估模型：使用交叉验证或其他评估指标来衡量模型的性能。 4. 预测或应用模型：将...

mahout-core-0.9.jar+mahout-core-0.8.jar+mahout-core-0.1.jar: 这个压缩包包含的是Mahout项目不同版本的核心库，分别是mahout-core-0.9.jar、mahout-core-0.8.jar和mahout-core-0.1.jar。这些版本的差异在于功能的完善、性能的优化以及对新特性的支持。 1. **Mahout核心功能**：...

mahout源码: 分词后的词汇可以进一步转换为Mahout能够处理的向量形式，为机器学习算法提供输入。三、实践应用与案例分析在实际应用中，结合Mahout的朴素贝叶斯分类和中文分词能力，我们可以构建一个中文新闻分类系统。首先，...

mahout0.9配置傻瓜说明: - 将下载好的`mahout-distribution-0.9.tar.gz`文件拖到`/usr/local`路径下。 - 使用命令行工具解压该文件：`#tar –zxvf mahout-distribution-0.9.tar.gz` 3. **修改目录名称**： - 将解压后的`mahout-...

mahout安装: Mahout 安装指南 Mahout 是一个机器学习库，可以提高开发效率。为了安装 Mahout，需要先安装 JDK 1.6 或更高版本和 Maven 2.0.9 或 2.0.10。下面是 Mahout 安装的详细步骤。一、Maven 的安装 Maven 是基于项目...

mahout安装和测试: 例如，arff.vector命令可以将ARFF格式的文件转换成向量格式；baumwelch命令提供了一个用于无监督HMM（隐马尔科夫模型）训练的Baum-Welch算法；canopy命令用于进行Canopy聚类；fpg命令是频繁模式增长算法，用于发现...

Mahout最新基础依赖包.rar: 为了在 Eclipse 中使用 Mahout，你需要安装 Hadoop 和 Mahout 相关的插件，或者手动配置项目以包含 "Mahout 最新基础依赖包" 中的 JAR 文件。这样可以避免因缺少依赖而导致的编译错误或运行时问题。 **使用步骤** ...

maven_mahout_template-mahout-0.8: 《Apache Maven与Mahout实战：基于maven_mahout_template-mahout-0.8的探索》 Apache Maven是一款强大的项目管理和依赖管理工具，广泛应用于Java开发领域。它通过一个项目对象模型（Project Object Model，POM）来...

如何成功运行Apache Mahout的Taste Webapp-Mahout推荐教程-Maven3.0.5-JDK1.6-Mahout0.5: 对于开发者来说，生成Eclipse工程有助于代码的编辑与管理，因此建议在Mahout目录下执行Maven命令将项目转换为Eclipse工程。之后，可以在Eclipse中导入这些工程，并进行后续的开发和调试。 5. 添加Mahout示例依赖在...

Mahout 单机demo: 5. **数据预处理**：在运行推荐算法之前，需要对CSV数据进行预处理，例如清洗数据、处理缺失值、转换数据格式等。 6. **模型训练与评估**：在Mahout中，使用训练数据集创建模型，然后用测试数据集评估模型的性能。...

Mahout tutorial: 为了使Hadoop正常工作，必须正确配置其核心配置文件，如core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml。配置完成后，验证Hadoop安装是否成功是推荐的下一步。接下来，用户需要下载Mahout及其相关...

测试mahout推荐算法的数据集: 【推荐算法】是一种重要的机器学习...通过对Chubbyjiang在GitHub上分享的数据集进行分析和处理，我们可以深入理解Mahout的协同过滤算法以及MapReduce在大数据环境下的工作原理，从而构建出更高效、更精准的推荐系统。

mahout Algorithms源码分析: Mahout是一个Apache Software Foundation（ASF）旗下的开源项目，主要用途是提供可扩展的机器学习算法的实现，帮助开发人员更方便快捷地创建智能应用程序。Mahout包含了很多算法的实现，包括聚类（Clustering）、...

mahout1.0编译包: 虽然没有具体列出“mahout1.0-compile”下的所有文件，但我们可以推断这个压缩包可能包含以下内容： 1. **编译好的JAR文件**：这些是运行Mahout算法所需的库文件，通常以`.jar`扩展名。 2. **源代码**：以`.java`...

Global site tag (gtag.js) - Google Analytics