第三章讲的是如何给社区里面的blog分组...
hierarchical clustering(word clustering)
统计博客中的文章,按照词语词出现的频率作为博客间的距离,把博客分组,形成树状图
算法是,查找所有博客,距离近的作为一组,然后反复迭代构成树
这个树有不同的生长策略的...书里介绍的是最简单的那种:不停的把最近的组合并构成树...
column clustering(blog clustering)
上面是以blog为维度,也可以用word为维度,查看经常同时出现的word...
算法上是一样的,只不过把数据矩阵转制了一下
这样统计出来的是经常在一起出现的词语,按照词语来划分组...
k-means clustering
这个目的是把blog分成k个组,算法是:
二维图上有n个点,先随机放k个中心点
然后n个点找最近的中心点,这样分成了k组
这时候再把中心点移动到每组的正中心作为一轮,然后再迭代分组,一直到中心点不移动为止...
multidimensional scaling
这个讲的是如何在二维图上表示n个blog
其实就是牛顿迭代...先把点放上去,然后参考他们之间的距离,移动一点点
反复迭代,直到收敛不动为止...
--------------
chenjinlai
2008-05-06
分享到:
相关推荐
集体智慧编程/Programming Collective Intelligence 中英文版
集体智慧编程(Programming Collective Intelligence)中文版 pdf-part1机器学习相关书籍
Programming Collective Intelligence: Building Smart Web 2.0 Applications 英文epub版本
《集体智慧编程》(Programming Collective Intelligence)官方源代码,非手敲。
《programming collective intelligence》是一本使用Python语言学习机器学习的教材。全书以英文原版呈现,难度适中,非常适合自学的读者。这本书被一些业界专家广泛推荐,因为它不仅对于初学者来说容易理解,而且还...
集体智慧编程 English edition
《编程集体智能》(Programming Collective Intelligence)是一本旨在帮助读者掌握如何利用Python语言进行机器学习的技术书籍。本书深入浅出地介绍了各种复杂的机器学习算法,并通过实际案例将这些算法的应用变得简单...
集体智慧编程(Programming Collective Intelligence)中文版 pdf-part2机器学习 贝叶斯 决策树
Segaran -- Programming Collective Intelligence -- 2008 -- code.7z
《Programming Collective Intelligence》是一本深度探讨如何利用编程技术来挖掘和分析数据,从而实现集体智慧的书籍。这本书主要面向对Python编程有一定基础,并希望通过编程手段理解并应用大数据、机器学习和人工...
集体智慧编程的全部代码,本人自行全部学完并且基本上都实操运行过,可靠。现在分享给大家,象征性的收一个积分,希望大家学习愉快。
中文版电子书 + 英文版电子书 + 源代码 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从...
A new category of powerful programming techniques lets you discover the patterns, inter-relationships, and individual profiles-the collective intelligence–locked in the data people leave behind as ...
Collective Intelligence in Action (Manning 2008).pdf