`
thd52java
  • 浏览: 72556 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。 (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p。 (3)计算S中所有点到p的距离dist (4)若dist<t1,则将相应点归到C,作为弱关联。 (5)若dist<t2,则将相应点移出S,作为强关联。 (6)重复(2)~(5),直至S为空。 上面的过程可以看出,dist<t2的点属于有且仅有一个簇,t2<dist<t1 的点可能属于多个簇。可见Canopy是一种软聚类。      Canopy有消除孤立 ...
Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度。对于数据量以及数据类型不同的数据源,需要不同的 相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组 ...
    对于大型矩阵,预处理是很重要的.常用的预处理方法有:                    (1) 雅克比预处理                      (2)块状雅克比预处理                 (3)半LU 分解                         (4)超松弛法

Mahout 算法

Mahour 包括协同过滤,基于User和Item的推荐;kmeans、Fuzzy-kmeans 、Mean shift 、Dirichlet process 、LDA聚类;奇异值分解;并行频繁项集挖掘;补充的贝叶斯分类、随机森林决策树分类。 一、分类算法 (一)Logistic 回归(SGD)
一、分类算法 (一)贝叶斯   (二)决策树 ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT
一、语言模型 (一)N元语言模型 (二)语言模型性能评价 (三)数据平滑 (四)语言模型自适应方法  
Global site tag (gtag.js) - Google Analytics