HBase源码阅读-2-HMaster

博客分类：

Parallel

2.HMaster:实现master的功能 A.负责分配region到regionserver,检测新增或失败的regionserver,与regionserver交互,regionserver间的负载均衡等; B.处理shcema的变更; C.实现ZooKeeper的Watcher接口,与zookeeper集群交互 2.1 master启动过程初始化，构 ...

2010-09-02 20:32
浏览 4046
评论(0)
分类:互联网

HBase源码阅读-1-脚本

博客分类：

Parallel

HBase 脚本 Hadoop Apache jruby

1.脚本 start-hbase.sh,hbase-daemon.sh,hbase-daemons.sh,zookeepers.sh,regionservers.sh,hbase,hbase-config.sh 1.1 hbase hbase命令行入口,最终控制master,regionserver,zookeeper等启动或关闭 1.1.1 hbase shell 执行jruby脚本org.jruby.Main ${HBASE_HOME}/bin/hirb.rb,是hbase� ...

2010-09-02 20:30
浏览 5280
评论(0)
分类:互联网

利用混合马尔可夫模型对用户搜索行为进行聚类

博客分类：

Machine Learning

搜索引擎 Hadoop 算法工作

最近一直做用户使用搜索引擎行为模式聚类的工作，开始尝试用K-means，效果非常不好，用户Session中的动作之间有较强的关联，这种基于距离的聚类无法体现这种关系。继而，转向基于模型的聚类方法，而马尔可夫模型及隐马模型是对这种时间序列建模的很好工具，因此尝试了下混合马尔可夫模型：认为每一个Session序列是有一个马尔可夫模型产生的，而模型的选择又遵循一定的概率分布；并用EM算法求解模型的参数。该模型已在Hadoop上实现，跑了一天的数据，大于1千多万的Session序列，初步看了看效果，还是蛮不错滴。

2010-07-19 15:44
浏览 1771
评论(2)
分类:互联网

mahout之3-mean shift聚类

博客分类：

Machine Learning

算法

3.Mean Shift 聚类 Mean Shift 聚类原理 (1). 欧式空间 X 中，有一个有限点的集合 S 。 K 是一个 flat 核，即简单说来， K 标记 x 是否在以原点为圆心，半径为 lamda 的球体内。 (2). 在 x 处的样本 ...

2010-07-05 09:11
浏览 3649
评论(0)
分类:互联网

mahout之2-Kmeans聚类

博客分类：

Machine Learning

Hadoop Apache 算法

2.Kmeans聚类 Kmeans算法思想也比较简单：可见http://baike.baidu.com/view/3447609.htm 首先从n个数据对象选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其 ...

2010-07-02 08:53
浏览 4733
评论(0)
分类:互联网

mahout之1-Canopy聚类

博客分类：

Machine Learning

Apache 算法 C C++C#

1.Canopy聚类 Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。 while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中� ...

2010-07-01 10:31
浏览 4081
评论(0)
分类:互联网

mrunit扩展

博客分类：

Parallel

Mapreduce 单元测试

MRUnit是一个对MapReduce开发做单元测试很不错的工具，但令人不太爽的，MapReduce应用基本都是处理大量数据的应用，而MRUnit居然不支持从文件中load测试的输入和输出数据，要在代码中构造一坨一坨数据，实在令人不快。昨天花了大半天的时间，扩展了一下mrunit的MapReduceDriver，可以方便的将测试输入和输出放在同一文件中，基本满足了一般情况下的单元测试的需要，这样就不用在测试代码中构造一堆恶心的String了. ---------------------------------------------------------- ...

2010-06-03 13:51
浏览 1176
评论(1)
分类:编程语言

做还是不做，是个问题

博客分类：

economy

BBS thread

来源：http://www.pinggu.org/bbs/thread-797820-1-1.html 妹妹的问题如下：我GG要和我做那个，我很犹豫，他说现在做过的太多了。我相信他的话，但作为女生: 方面就得想多点，“ 以后要是他不爱我怎么办？” ，“ 如果 ...

2010-05-26 12:33
浏览 554
评论(0)
分类:非技术

两本关于Hadoop的书

博客分类：

Parallel

Hadoop Mapreduce 算法出版

昨天刚从同事那拿到两本关于hadoop的书。一本是hadoop的committer Tom White的大作《hadoop_The_definitive_guide》，大致看了下前言和目录，非常详细的介绍了hadoop的各个方面。另一本《Data-Intensive Text Processing with MapReduce》貌似还没有正式出版，介绍了如何用MapReduce设计一些算法的技巧，包括常见的连接多个表，Inverted Indexing的实现，包括宽度优先、PageRank等图相关算法，以及 EM、HMM等机器学习算法是现实，总之感 ...

2010-05-26 08:55
浏览 1482
评论(1)
分类:互联网

使用MapReduce实现图的一些算法[翻译]

博客分类：

Parallel

算法 Mapreduce 云计算框架

使用 MapReduce 实现图的一些算法随着处理的图规模增长（比如复杂网络），以致图的节点和边信息无法完全载入内存，这给执行在图上的算法带了很大挑战。而云计算是一种很好的解决方案。《 Graph Twiddling in a MapReduce World 》介绍了将一些图算法分解成一系列 MapReduce Job 的方案（ 1 ）首先给一个简单的例子作为下面将介绍的较复杂的算法的一部分：统计每个节点的度，并加入到每条边的记录中。输入：图中的每条边，比如： (FRED, ETHEL) 输出： Key 为每 ...

2010-05-07 18:22
浏览 3371
评论(0)
分类:编程语言

Hadoop Online

博客分类：

Parallel

Hadoop Mapreduce 算法框架网络应用

MapReduce框架适合用来处理大数据量计算和分析工作，但实际应用中许多任务并不能表示成单个MapReduce Job。比如K均值聚类，SVM等迭代式的算法，仅执行一次Job是不可能完成计算。而MapReduce框架，包括Hadoop最初设计成解决批处理 ...

2010-05-05 10:43
浏览 2505
评论(0)
分类:互联网

脱机手写体汉字识别系统

博客分类：

CS

最近有幸接触到模式识别及文字识别这一领域，阅读了几篇论文。对脱机手写体汉字识别的系统整体架构及思路整理成MindMap图，感觉思路清晰多了：）

2009-03-27 22:09
浏览 1243
评论(0)

幽默的食堂大婶

博客分类：

生活小记

今天中午因为点事，去食堂晚了点，去那里基本上只剩了点残羹冷炙了，我拿了个碗左看右看，晃来晃去，实在不晓得吃点啥子好，忍不住叹了声气，结果被一位耳尖的打饭的大婶听到了，“小伙子吃饭的时候要高兴点，不要唉声叹气的哦，下次记得来早点啊”，逗得哥们真乐了。就冲这服务，来三两饭，剩菜包了！

2008-12-06 21:14
浏览 1025
评论(11)
论坛回复 / 浏览 (11 / 3262)
分类:非技术

关系数据库测试驱动开发

博客分类：

软件工程

软件测试数据结构敏捷开发 TDD 脚本

最近要交个作业，翻译了篇Scott W. Ambler的论文，贴出来给大家拍拍砖附上原文 ------------------------------------------------------------------------------------ 关系数据库测试驱动开发在测试先行开发（ TFD ）中，开发人员通过迭代的方 ...

2008-12-04 10:40
浏览 1210
评论(2)
论坛回复 / 浏览 (2 / 3903)
分类:研发管理

调用指令（Call）

博客分类：

ASM

调用指令分为近(near)调用和远(far)调用。如果被调用子程序的属性是近的，那么，CALL指令将产生一个近调用，它把该指令之后地址的偏移量(用一个字来表示的)压栈，把被调用子程序入口地址的偏移量送给指令指针寄存器IP即可实现执行程序的转移。注意：因为将下一条指令地址入栈了，所以根据ebp访问第一参数时地址要增加四个字节如果被调用子程序的属性是远的，那么，CALL指令将产生一个远调用。这时，调用指令不仅要把该指令之后地址的偏移量压进栈，而且也要把段寄存器CS的值压进栈。在此之后，再把被调用子程序入口地址的偏移量和段值分别送给IP和CS，这样完成了子程序的远调用操作。远调用指令的 ...

2008-10-11 16:44
浏览 1388
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HBase源码阅读-2-HMaster

HBase源码阅读-1-脚本

利用混合马尔可夫模型对用户搜索行为进行聚类

mahout之3-mean shift聚类

mahout之2-Kmeans聚类

mahout之1-Canopy聚类

mrunit扩展

做还是不做，是个问题

两本关于Hadoop的书

使用MapReduce实现图的一些算法[翻译]

Hadoop Online

脱机手写体汉字识别系统

幽默的食堂大婶

关系数据库测试驱动开发

调用指令（Call）

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>