本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
- sichunli_030
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- kaizi1992
- tanling8334
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- johnsmith9th
- Xeden
- luxurioust
- lzyfn123
- zhanjia
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- mwhgJava
- silverend
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
- jveqi
- java-007
- sunj
最新文章列表
RocketMQ(05)——消息的群集消费和广播消费
消息的群集消费和广播消费
RocketMQ的消费者进行消息消费时有两种消费方式,群集消费和广播消费。默认是群集消费。
群集消费
Consumer都有一个Group,当两个Consumer实例属于同一个Group时,它们会共享消息队列中的消息消费位移,即同一条消息只会由一个消费者实例消费。实际上一个队列只会分配给一个消费者实例,那么属于该队列中的消息就只能被一个消费者实例消费了。当一个消费者 ...
Minimum Spanning Tree
1. Definition: Given an undirected graph G with positive edge weights (connected). A spanning tree of G is a subgraph T that is connected and acyclic. A minimum spanning tree is a min weight spannin ...
MST application to Clustering
1. Problem Definition of Clustering:
Informal goal: Given n "points" [Web pages, images, genome fragments, etc.] classify into "coherent groups" -- cluster
Assumptions ...
Clustering: K-Means
K-Means
算法步骤
a. 设置聚类的个数K
b. 从样本集中任意选K个样本作为初始簇的中心
c. 计算每个样本与簇中心的距离,划分到最近的簇中
d. 重新计算每个簇的中心, 簇内所有点的平均值
e. 重复c和d,直到簇中心点不再变化,或者自定义的终止条件,例如迭代的最大次数等。
Clustering: Canopy
Canopy
本文介绍聚类算法:canopy
该算法的主要特点:无需设置集群个数
算法的步骤
1. 设置参数T1和T2, 其中T1>T2, 参数敏感
2. 在样本集和钟任务一个样本P, 计算P与所有Canopy之间的距离,初始的时候Canopy为空,直接把P
当成一个Canopy. 如果P与某个Canopy距离在T1以内,则将P认为是一个Canopy。如果在T ...
最最最简单的URL聚类
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL
第一步:提取http链接
使用 Jsoup 来做
Document doc = Jsoup.parse(stream.getText())
Elements links = doc.select("a[href]")
for (Element eleme ...
一个基于Mahout与hadoop的聚类搭建
mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。
第一步:搭建hadoop平台。
我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《Ubun ...