- 浏览: 72556 次
- 性别:
- 来自: 北京
-
最新评论
-
thd52java:
0.5的。
Mahout系列之----kmeans 聚类 -
yeelor:
这是用的mahout的哪个版本呢
Mahout系列之----kmeans 聚类 -
hailongshih:
lz用哪个版本jar包,试过3.0.3 3.0.2都不行
实现像百度一样的自动补全功能 -
thd52java:
netkiller.github.com 写道开眼了,不过很多 ...
树的种类
文章列表
Canopy 算法,流程简单,容易实现,一下是算法
(1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。
(2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p。
(3)计算S中所有点到p的距离dist
(4)若dist<t1,则将相应点归到C,作为弱关联。
(5)若dist<t2,则将相应点移出S,作为强关联。
(6)重复(2)~(5),直至S为空。
上面的过程可以看出,dist<t2的点属于有且仅有一个簇,t2<dist<t1 的点可能属于多个簇。可见Canopy是一种软聚类。
Canopy有消除孤立 ...
Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度。对于数据量以及数据类型不同的数据源,需要不同的 相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组 ...
对于大型矩阵,预处理是很重要的.常用的预处理方法有:
(1) 雅克比预处理
(2)块状雅克比预处理
(3)半LU 分解
(4)超松弛法
Mahour 包括协同过滤,基于User和Item的推荐;kmeans、Fuzzy-kmeans 、Mean shift 、Dirichlet process 、LDA聚类;奇异值分解;并行频繁项集挖掘;补充的贝叶斯分类、随机森林决策树分类。
一、分类算法
(一)Logistic 回归(SGD)
一、分类算法
(一)贝叶斯
(二)决策树
ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT
一、语言模型
(一)N元语言模型
(二)语言模型性能评价
(三)数据平滑
(四)语言模型自适应方法