Ruby简单实现K-means聚类算法

fuliang

浏览: 1664223 次
性别:
来自: 北京

最近访客更多访客>>

依然任逍遥

stephenworld

lli

samwalt

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Machine Learning

算法 Ruby

K-means是一个简单容易实现的聚类算法，我们以对一个图片的颜色的RGB值进行聚类为例，
实现这个算法。
K-means算法是一个EM的迭代过程：
1.随机选择k个作为聚类中心
2.E step:
对每一个点，计算它到每一个聚类中心的距离，把这个点分配到最近的聚类中心代表的
聚类中。
3.M step：
重新计算每个聚类的中心：每个聚类中心为该聚类所有点的均值。

重复2～3直到达到最大的迭代次数或者聚类不再发生变化。

#!/usr/bin/ruby
# autor: fuliang http://fuliang.iteye.com/

class RGB
    attr_accessor :r,:g,:b

    def initialize(r=0,g=0,b=0)
        @r,@g,@b = r,g,b
    end

    def +(rgb)
        @r += rgb.r
        @g += rgb.g
        @b += rgb.b
        self
    end

    def /(n)
        @r /= n
        @g /= n
        @b /= n
        self
    end
end

def random_k_centers(instances,k)
    rand_indxes = (0...instances.size).sort_by{rand}[0...k]
    instances.values_at(*rand_indxes)
end

def distance(ins1,ins2)#采用余弦值，因为255,255,255和200,200,200颜色基本类似
    dot_product = ins1.r * ins2.r + ins1.g * ins2.g + ins1.b * ins2.b
    mod1 = Math.sqrt(ins1.r * ins1.r + ins1.g * ins1.g + ins1.b * ins1.b)
    mod2 = Math.sqrt(ins2.r * ins2.r + ins2.g * ins2.g + ins2.b * ins2.b)
    return 1 - dot_product / (mod1 * mod2)
end

def k_means_cluster(instances,k,max_iter=100)
    random_centers = random_k_centers(instances,k)
    p random_centers
    instance_cluster_map = {}
    change_count = 0
    clusters = []
    0.upto(max_iter) do |iter_num|
        clusters = []
        puts "iterate #{iter_num} ..."
        change_count = 0
        # E-step
        instances.each do |instance|
            min_distance = 1.0/0
            min_indx = 0
            random_centers.each_with_index do |center,index|
                current_distance = distance(center,instance)
                if min_distance > current_distance then
                    min_indx = index
                    min_distance = current_distance
                end
            end
            if instance_cluster_map[instance] != min_indx then#trace the change
                change_count += 1
                instance_cluster_map[instance] = min_indx
            end
            clusters[min_indx] ||= []
            clusters[min_indx] << instance
        end
        puts "change_count=#{change_count}"
        break if change_count.zero?
        #M-step
        clusters.each_with_index do |cluster,index|
            center = RGB.new
            cluster.each do |instance|
                center += instance
            end
            center /= cluster.size
            random_centers[index] = center # update center
        end
    end
    return clusters
end

instances = []
File.open("rgbs.txt").each_line do |line|
    line.split(/\t/).each do | rgb |
        r,g,b = rgb.split(/,/).collect{|e| e.to_i}
        instances << RGB.new(r,g,b)
    end
end

clusters = k_means_cluster(instances,5,100)
k_candidates = []
clusters.each do |cluster|
    sum = cluster.inject(RGB.new) {|sum,ins| sum + ins}
    candidate = sum / cluster.size
    k_candidates << candidate
end

p k_candidates

可以使用聚类算法对这个图片进行有损压缩。

0
顶

0
踩

分享到：

写个简单的汉语bigram tokenizer | 写段代码看看别人都怎么称呼你网站的？

2011-01-23 21:06
浏览 2387
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Ruby简单实现K-means聚类算法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Ruby简单实现K-means聚类算法

评论

发表评论

相关推荐

[zz]推荐系统-从入门到精通

机器学习在公司的分享

Deep learning的一些教程[rz]

[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接

Deep learning的一些有用链接

信息论学习总结（二）最大熵模型

信息论学习总结（一）基础知识

loss function

Large-Scale Support Vector Machines: Algorithms and Theory

使用SGD(Stochastic Gradient Descent)进行大规模机器学习

构建自己的DSL之三 抓取文件管理

构建自己的DSL之二 抓取文本处理

构建自己的DSL之一 Simple Crawler

paper and book阅读

模式识别和机器学习 笔记 第四章 线性分类模型（二）

模式识别和机器学习 笔记 第四章 线性分类模型（一）

模式识别和机器学习 第六章 核方法

开始读Jordan大神的《Graphical Models,Exponetial Families and Variation Inference》

模式识别和机器学习 笔记 第三章 线性回归模型

模式识别和机器学习 笔记 第二章 概率分布

最近访客更多访客>>

构建自己的DSL之三抓取文件管理

构建自己的DSL之二抓取文本处理

模式识别和机器学习笔记第四章线性分类模型（二）

模式识别和机器学习笔记第四章线性分类模型（一）

模式识别和机器学习第六章核方法

模式识别和机器学习笔记第三章线性回归模型

模式识别和机器学习笔记第二章概率分布