`
coderplay
  • 浏览: 578104 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

canopy-clustering执行顺序

阅读更多
好记性不如烂笔头,记一下:

NetflixDataPrep(准备数据) -> NetflixCanopyMaker(产生canopy中心) -> NetflixCanopyData(分配所有点到各canopy) -> NetflixKMeansIter(进行k-means聚类)

假设数据记录条数为n, 第二步产生的canopy数量为c, 那第三步计算量则为 n * c,就算用了mapper计算量也非常大。一定要改进成增量式的方法。 研究一下~~

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics