本月博客排行
年度博客排行
-
第1名
宏天软件 -
第2名
龙儿筝 -
第3名
青否云后端云 - wallimn
- vipbooks
- gashero
- wy_19921005
- benladeng5225
- fantaxy025025
- zysnba
- ssydxa219
- e_e
- javashop
- sam123456gz
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- xiangjie88
- wiseboyloves
- ganxueyun
- lemonhandsome
- xyuma
- sichunli_030
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- Xeden
- zhanjia
- johnsmith9th
- forestqqqq
- luxurioust
- lzyfn123
- ajinn
- nychen2000
- wjianwei666
- daizj
- hanbaohong
- 喧嚣求静
- ranbuijj
- silverend
- kingwell.leng
- lchb139128
- kristy_yy
- lich0079
- jveqi
- java-007
- sunj
- yeluowuhen
最新文章列表
利用Mahout实现在Hadoop上运行K-Means算法
class="full-post-title">利用Mahout实现在Hadoop上运行K-Means算法
一、介绍Mahout
Mahout是Apache下的开源机器学习软件包,目前实现的机器学习 ...
Mahout的相似性度量(相似度算法)
User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。上文简单的介绍了相似性的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍:
1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity
皮尔森相关系数反应了两个变量之间的线性相关程度,它 ...
Mahout的安装配置与使用
Mahout 是Apache旗下的一个机器学习和数据挖掘的分布式框架,包括聚类,分类,协同过滤,关联规则挖掘等
经典的算法。
1. 安装Maven
wget http://apache.etoak.com//maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz 下载
最新版本的Maven. tar xv ...
Mahout 快速入门(一)
本实例是基于用户推荐的事例教程,来源于apache mahout http://mahout.apache.org/users/recommender/userbased-5-minutes.html
1. 准备数据。利用mahout 提供的简单的数据,生成数据文件dataset.csv。每一列分别表明 用户ID ItemID value(表明一种关系,用户对该商品的评级)
1,10,1.0
1, ...
Mahout系列----MinHash聚类
Map:
Vector featureVector = features.get();
if (featureVector.size() < minVectorSize) { return; } // Initialize the MinHash values to highest for (int i = 0; i < numHa ...
Mahout – 机器学习
wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz
tar -xzvf mahout-distribution-0.8.tar.gz
cd mahout-distribution-0.8
sudo vi /etc/profile
增加:
export PATH= ...
mahout中LDA简介以及示例
翻译自: https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation
简介:
Latent Dirichlet Allocation (Blei et al, 2003)是一个强大的学习方法将words聚到一些topics里面,以及把一些document表示成topics的一些集合。
...
Mahout系列之------Canopy算法
Canopy 算法,流程简单,容易实现,一下是算法
(1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。
(2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p。
(3)计算S中所有点到p的距离dist
(4)若dist<t1,则将相应点归到C,作为弱关联。
(5)若dist<t2,则将相应点移出S,作为强关联。
(6)重复(2)~(5), ...
Mahout 系列之----距离度量
x = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为
(1)欧氏距离 EuclideanDistanceMeasure
(2)曼哈顿距离 ManhattanDistanceMeasure
(3)马氏距离MahalanobisDistanceMeasure
马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。 ...