【转】mahout应用kmeans进行文本聚类1之——输入输出分析 - wujay - ITeye博客

`

jayghost

浏览: 446247 次
性别:
来自: 成都

最近访客更多访客>>

liangzai951

南方老牛

wanmbv

casiert123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sunwang810812：万分感谢中！！！！！这么多年终于看到一个可运行可解决的方案！！ ...
POI 后台生成Excel，在前台显示进度
zzb7728317： LZ正解
Spring Jackson AjaxFileUpload 没有执行回调函数的解决办法
sleeper_qp： lz是在源码上修改的么？源码的话你重新编译一遍了么？可 ...
由nutch readseg -dump 中文编码乱码想到的……
shenjian430：请问你改好的程序在写在哪了？
由nutch readseg -dump 中文编码乱码想到的……
yinxusen： It seems to be the bug occur in ...
Mahout Local模式执行example的注意点

【转】mahout应用kmeans进行文本聚类1之——输入输出分析

博客分类：

Mahout

阅读更多

转：http://blog.csdn.net/aidayei/article/details/6674112

输入分析：

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile，而聚类必须是向量格式的，mahout提供下面两个命令来将文本转成向量形式
1.mahout seqdirectory：将文本文件转成SequenceFile文件，SequenceFile文件是一种二制制存储的key-value键值对，对应的源文件是org.apache.mahout.text.SequenceFilesFromDirectory.java

2.mahout seq2sparse：将SequenceFile转成向量文件，对应的源文件是org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.java

输出分析：即查看结果
mahout seqdumper：将SequenceFile文件转成可读的文本形式，对应的源文件是org.apache.mahout.utils.SequenceFileDumper.java
mahout vectordump：将向量文件转成可读的文本形式，对应的源文件是org.apache.mahout.utils.vectors.VectorDumper.java
mahout clusterdump：分析最后聚类的输出结果，对应的源文件是org.apache.mahout.utils.clustering.ClusterDumper.java

具体每种命令如何用及参数选择，可以在命令行后面加-h或-help，例如，查看mahout seqdumper -h，这样终端下，就会列出详细的参数选项及说明

最重要的是读读这几个命令的源代码，看看是如何实现的，这样才可以灵活运用到自己的应用中去

分享到：

【转】mahout应用kmeans进行文本聚类2之— ... | 【转】mahout中的kmeans结果分析

2012-05-13 22:46
浏览 1880
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mahout聚类算法: Mahout 聚类算法可以分为多种类型，如 Canopy、KMeans、Fuzzy-KMeans、Spectral Clustering 等，每种算法都有其自己的特点和应用场景。在 Mahout 聚类算法中，数据模型是数据的基本结构，它可以是 DenseVector、...

kmeans算法文本聚类java源码（分词，TF/IDF等）: 用户可以直接运行该项目，根据输出结果分析文本的聚类效果。总结，KMeans算法结合TF-IDF权重在Java中的应用，为文本聚类提供了一种有效的方法。通过理解算法原理，掌握文本预处理、向量化、相似度计算等关键步骤，...

Kmeans文本聚类java实现: 在文件"**textcluster**"中，可能包含了实现这些功能的Java代码，如文本预处理类、KMeans聚类类、数据读取和输出功能等。具体实现细节，例如如何处理稀疏矩阵、如何优化距离计算等，可以通过阅读源代码来了解。总...

mahout canopy+kmeans测试数据: 在IT领域，尤其是数据分析与机器学习方向，Apache Mahout是一个广受好评的开源项目，它提供了许多用于构建智能应用程序的算法。Mahout的核心是它的聚类、分类、推荐系统和频繁项挖掘等算法，其中Canopy和K-means是其...

java 利用Kmeans的jar包进行聚类---代码: 在进行KMeans聚类时，还需要注意一些关键点： - **预处理**：数据可能需要进行标准化或归一化，以便所有特征在同一尺度上。 - **选择合适的K值**：K值的选择对结果影响很大，可以使用肘部法则或轮廓系数来确定最佳的...

kmeans聚类java实现附测试数据及结果: 下面我们将深入探讨KMeans聚类的基本原理、Java实现的关键步骤以及如何进行测试和分析结果。 KMeans算法的核心思想是通过迭代过程将数据点分配到最近的聚类中心，然后更新这些中心为该聚类所有点的平均值。主要步骤...

mahout学习: 《深入理解Mahout中的KMeans聚类算法》在数据挖掘和机器学习领域，聚类是一种常用的技术，用于发现数据集中的自然群体或类别。Apache Mahout作为一个强大的开源机器学习库，提供了多种聚类算法，其中KMeans是最为...

mahout所需jar包: Mahout的目标是帮助开发人员构建智能应用程序，如推荐系统、分类和聚类算法，这些在大数据分析领域中极为重要。 **K-Means聚类算法** K-Means是一种无监督学习的聚类算法，用于将数据集分成不同的群组或类别。在...

mahout0.9配置傻瓜说明: ### Mahout 0.9 环境配置与测试说明 #### 一、Mahout简介 Mahout是一款开源机器学习...通过上述步骤，我们不仅可以顺利完成Mahout 0.9的安装配置，还能进行基本的功能测试，为后续更深入的学习和应用打下坚实的基础。

synthetic_control.data: Mahout的kmeans聚类测试数据

聚类分析 (4).pdf: 在实际应用中，聚类分析广泛应用于模式识别、数据分析、图像处理和市场研究等场景。例如，它常用于Web文档分类，构建有效的信息检索和发布系统，通过分析内容的聚类情况，可以洞察热门话题的发展趋势，了解用户的...

mahout0.9测试详细傻瓜说明: 以上步骤详细介绍了如何在 Mahout 0.9 中运行 KMeans 算法进行数据聚类。请注意，实际操作时可能需要根据你的具体环境配置和数据集调整相关参数，例如 KMeans 中的迭代次数、初始中心点选择策略等。此外，理解 ...

mahout-distribution-0.5-src.tar.gz ): 1. **聚类算法**：KMeans是Mahout中最常见的聚类算法之一。在Hadoop上运行KMeans，可以处理海量数据，对大量用户行为、网站访问记录或者地理定位数据进行分组，发现潜在的模式或群体。此外，Mahout还支持其他聚类...

maven_mahout_template-mahout-0.6: kmeans聚类算法基于划分的方法单机版基于学习

基于Spark框架的聚类算法研究: 大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在...该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。

mahout 0.4版本: 总结来说，Apache Mahout 0.4版本是一个强大的工具，为开发者和数据分析师提供了实现机器学习任务的高效途径，特别是KMeans聚类、FPM挖掘和协同过滤。通过这个开源项目，即使是对机器学习不熟悉的用户也能处理大数据...

大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 共64页.pdf: - Kmeans 在推荐系统、聚类分析等领域的应用实例。综上所述，这份资料涵盖了 Hadoop 相关技术的多个方面，包括分布式搜索引擎构建、数据处理、数据存储以及机器学习算法等。对于希望深入了解 Hadoop 生态系统的...

coh-kmeans:用Java实现的半监督分层聚类算法: K-means是最为知名的无监督聚类算法之一，而Coh-kmeans则是其半监督版本，结合了有监督和无监督的学习特性。本篇将深入探讨Coh-kmeans算法以及其Java实现。 ### 1. K-means算法简述 K-means算法基于中心点迭代更新...

开源力量——数据挖掘原理与实战: 整套大数据课程从hadoop入门开始，由浅入深，内置“hadoop源码解析与企业应用开发实战”，“Hive开发实战”，“Hbase开发实战”，“Spark，mahout，sqoop，storm诸模块开发实战”，“数据挖掘基础。这个系列课程有几...

mahout-demo:mahout 演示展示了它是如何工作的: Mahout 演示欢迎来到驯象师演示。开发这个项目是为了展示 mahout 是如何工作的。... 模糊 KMeans 聚类使用 Maven 构建mvn 全新安装执行java -jar mahout-demo-0.0.1-SNAPSHOT-jar-with-dependencies.jar

Global site tag (gtag.js) - Google Analytics