最新文章列表

Mahout-0.5运行时异常处理

很早就装上了mahout-distribution-0.5,结果运行第一个例子Canopy Clustering的时候就报错,在Mahout的官方主页tutorial页面里写了comment,说明了出错的地方,结果 ...
JerryLead 评论(3) 有8166人浏览 2011-10-10 17:38

mahout vector 的产生方式

根据wiki mahout 产生 vector 的方式有2种: #1 from lucene index to vector $MAHOUT_HOME/bin/mahout lucene.vector <PATH TO DIRECTORY CONTAINING LUCENE INDEX> \ --output <PATH ...
beneo 评论(0) 有2195人浏览 2011-09-27 08:28

最最最简单的URL聚类

我们要发现一个富文本中的http链接,发现一些群体行为,获取URL 第一步:提取http链接 使用 Jsoup 来做 Document doc = Jsoup.parse(stream.getText()) Elements links = doc.select("a[href]") for (Element eleme ...
beneo 评论(0) 有2586人浏览 2011-09-23 22:57

一个基于Mahout与hadoop的聚类搭建

    mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。     第一步:搭建hadoop平台。 我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《Ubun ...
beneo 评论(2) 有8835人浏览 2011-09-23 22:37

Mahout 和 Mahout in Action

  Mahout 和 Mahout in Action    1 Mahout 简介 网站:http://mahout.apache.org/   Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。   该社区最初基于 Ng et al. ...
bluky999 评论(0) 有2296人浏览 2011-09-05 15:07

关于 “推荐引擎” 的dw文章收集

这不是一篇文章,只是一个ibm dw上的文章list - 关于推荐引擎和apache mahout的:   探索推荐引擎内部的秘密 第 1 部分: 推荐引擎初探 第 2 部分: 深入推荐引擎相关算法 - 协同过滤 第 3 部分: 深入推荐引擎相关算法 - 聚类   http://www.ibm.com/developerworks/cn/web/1103_zhaoct ...
bluky999 评论(1) 有2062人浏览 2011-08-03 20:18

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics