- 浏览: 2663238 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
让Mahout KMeans聚类分析运行在Hadoop上
Mahout与聚类分析:
http://yoyzhou.github.io/blog/2013/05/26/clustering-with-mahout/
http://yoyzhou.github.io/blog/2013/06/04/mahout-clustering-with-hadoop/
Mahout与聚类分析:
http://yoyzhou.github.io/blog/2013/05/26/clustering-with-mahout/
http://yoyzhou.github.io/blog/2013/06/04/mahout-clustering-with-hadoop/
相关推荐
Mahout 聚类算法是数据挖掘和机器学习领域中的一种重要算法,它可以将相似的数据点聚集在一起,以便更好地理解和分析数据。Mahout 聚类算法可以分为多种类型,如 Canopy、KMeans、Fuzzy-KMeans、Spectral Clustering...
安装和配置Mahout的过程,对于想要实现大数据上的聚类分析至关重要。 聚类分析在实际应用中不仅有助于发现数据的内在规律,还能用于优化算法性能。例如,通过预处理步骤,聚类可以用来减少数据复杂性,提高后续分析...
Apache Mahout是一个开源机器学习库,它提供了包括聚类分析在内的多种算法实现,支持Hadoop,使得大规模数据的聚类处理变得可能。通过Mahout,开发者可以轻松地实现各种聚类任务,探索和理解大数据集中的隐藏模式。 ...
该数据包含两列,数据之间用空格进行划分,主要用来进行聚类分析,可以直接作为mahout机器学习平台的实验数据
### 聚类分析概述 聚类分析是一种重要的无监督学习方法,在数据分析、模式识别、图像处理等多个领域有着广泛的应用。聚类分析的目标是将数据集中的对象分成多个组(簇),使得同一组内的对象之间尽可能相似,而不同...
Mahout包含了很多算法的实现,包括聚类(Clustering)、分类(Classification)、推荐过滤(Recommendation Filtering)、频繁子项挖掘(Frequent Itemset Mining)等。由于Mahout与Apache Hadoop库的结合,它能够...
"mahout-integration-0.9.jar"包含了与其他系统集成的工具和接口,比如与其他数据存储系统的连接,以及与Hadoop之外的计算框架的兼容性。 "mahout-examples-0.9.jar"包含了一些示例程序,展示了如何使用Mahout来...
在Java环境中实现KMeans算法进行文本聚类,可以为大数据分析、信息检索和推荐系统等应用场景提供有力支持。 KMeans算法的基本思想是通过迭代过程,不断调整样本的归属,使得同一簇内的样本尽可能接近,不同簇间的...
本书由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman共同撰写,深入浅出地讲解了Mahout在推荐系统、聚类分析及分类任务中的应用。Mahout基于Java开发,与Hadoop紧密结合,能够处理大规模数据集,支持分布式...
通过Mahout的聚类分析技术,可以将用户按兴趣爱好、年龄层等因素分成不同的群体,从而进行更加精准的内容推送和服务设计。 #### 文本情感分析 Mahout还支持文本挖掘相关的功能,比如情感分析。利用Mahout中的朴素...
《Mahout实例详解:开启机器学习与大数据之旅》 Apache Mahout是一个开源的机器学习库,基于Java语言,旨在提供可扩展的、分布式机器学习算法。它被广泛应用于大数据领域,尤其是推荐系统、分类和聚类分析。本文将...
大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在...该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。
在实际应用中,Mahout可以与其他大数据工具,如Hive、Pig、Spark等结合,进一步增强数据分析能力。例如,通过Hive可以方便地对数据进行预处理和清洗,然后使用Mahout进行模型训练,最后再将结果存入HBase等NoSQL...
对于每个输入数据点,Mapper 计算其与所有聚类中心的距离,然后将其归入距离最近的聚类,并输出聚类 ID 及对应的 KMeansInfo 实例,该实例包含了该点的个数和各分量的累加和。 #### K-Means Combiner K-Means ...
Mahout的目标是帮助开发人员构建智能应用程序,如推荐系统、分类和聚类算法,这些在大数据分析领域中极为重要。 **K-Means聚类算法** K-Means是一种无监督学习的聚类算法,用于将数据集分成不同的群组或类别。在...
Mahout的聚类算法常用于市场分割、社交网络分析和图像分析等场景。 3. **协同过滤(Collaborative Filtering)**:这是推荐系统的基础,通过分析用户的历史行为来预测他们可能的兴趣。Mahout提供了基于用户的协同...