- 浏览: 195299 次
- 性别:
- 来自: 武汉
最新评论
-
hagendashao:
此两本书都写的很细致,感谢楼主分享。
两本关于Hadoop的书 -
fireinwind:
wing_0 写道你好,
以 spark-0.7.0/run ...
关于spark各种蛋疼的事 -
wing_0:
你好,以 spark-0.7.0/run -jar /home ...
关于spark各种蛋疼的事 -
juluren:
参考http://apidoc.cn/archives/47h ...
Java往Excel写入海量数据 -
juluren:
http://apidoc.cn/archives/47
Java往Excel写入海量数据
文章列表
2.HMaster:实现master的功能
A.负责分配region到regionserver,检测新增或失败的regionserver,与regionserver交互,regionserver间的负载均衡等;
B.处理shcema的变更;
C.实现ZooKeeper的Watcher接口,与zookeeper集群交互
2.1 master启动过程初始化,构 ...
1.脚本 start-hbase.sh,hbase-daemon.sh,hbase-daemons.sh,zookeepers.sh,regionservers.sh,hbase,hbase-config.sh
1.1 hbase hbase命令行入口,最终控制master,regionserver,zookeeper等启动或关闭
1.1.1 hbase shell
执行jruby脚本org.jruby.Main ${HBASE_HOME}/bin/hirb.rb,是hbase ...
最近一直做用户使用搜索引擎行为模式聚类的工作,开始尝试用K-means,效果非常不好,用户Session中的动作之间有较强
的关联,这种基于距离的聚类无法体现这种关系。继而,转向基于模型的聚类方法,而马尔可夫模型及隐马模型是对这种时间
序列建模的很好工具,因此尝试了下混合马尔可夫模型:认为每一个Session序列是有一个马尔可夫模型产生的,而模型的选
择又遵循一定的概率分布;并用EM算法求解模型的参数。
该模型已在Hadoop上实现,跑了一天的数据,大于1千多万的Session序列,初步看了看效果,还是蛮不错滴。
3.Mean Shift
聚类
Mean Shift
聚类原理
(1).
欧式空间
X
中,有一个有限点的集合
S
。
K
是一个
flat
核,即
简单说来,
K
标记
x
是否在以原点为圆心,半径为
lamda
的球体内。
(2).
在
x
处的样本 ...
2.Kmeans聚类
Kmeans算法思想也比较简单
:可见http://baike.baidu.com/view/3447609.htm
首先从n个数据对象选择 k 个对象作为初始聚类中心;
而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),
分别将它们分配给与其 ...
1.Canopy聚类
Canopy聚类是一种简单、快速、但不太准确的聚类方法。
该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。
while(没有标记的数据点){
选择一个没有强标记的数据点p
把p看作一个新Canopy c的中 ...
MRUnit是一个对MapReduce开发做单元测试很不错的工具,但令人不太爽的,MapReduce应用基本都是处理大量数据的应
用,而MRUnit居然不支持从文件中load测试的输入和输出数据,要在代码中构造一坨一坨数据,实在令人不快。
昨天花了大半天的时间,扩展了一下mrunit的MapReduceDriver,可以方便的将测试输入和输出放在同一文件中,基本满足
了一般情况下的单元测试的需要,这样就不用在测试代码中构造一堆恶心的String了.
---------------------------------------------------------- ...
来源:http://www.pinggu.org/bbs/thread-797820-1-1.html
妹妹的问题
如下:
我GG要和我做那个,我很犹豫,他说现在做过的太多了。我相信他的话,但作为女生: 方
面就得想多点,“
以后要是他不爱我怎么办?”
,“
如
果 ...
昨天刚从同事那拿到两本关于hadoop的书。
一本是hadoop的committer Tom White的大作《hadoop_The_definitive_guide》,大致看了下前言和目录,非常
详细的介绍了hadoop的各个方面。
另一本《Data-Intensive Text Processing with MapReduce》貌似还没有正式出版,介绍了如何用MapReduce设计一
些算法的技巧,包括常见的连接多个表,Inverted Indexing的实现,包括宽度优先、PageRank等图相关算法,以及
EM、HMM等机器学习算法是现实,总之感 ...
使用
MapReduce
实现图的一些算法
随着处理的图规模增长(比如复杂网络),以致图的节点和边信息无法完全载入内存,这给执行在图上的算法带了很大挑战
。而云计算是一种很好的解决方案。《
Graph Twiddling in a MapReduce World
》介绍了将一些图算法分解成一系列
MapReduce
Job
的方案
(
1
)首先给一个简单的例子作为下面将介绍的较复杂的算法的一部分:统计每个节点的度,并加入到每条边的记录中。
输入:图中的每条边,比如:
(FRED, ETHEL)
输出:
Key
为每 ...
MapReduce框架适合用来处理大数据量计算和分析工作,但实际应用中许多任务并不能表示成单个MapReduce Job。
比如K均值聚类,SVM等迭代式的算法,仅执行一次Job是不可能完成计算。而MapReduce框架,包括Hadoop最初设计成解
决批处理 ...
脱机手写体汉字识别系统
- 博客分类:
- CS
最近有幸接触到模式识别及文字识别这一领域,阅读了几篇论文。
对脱机手写体汉字识别的系统整体架构及思路整理成MindMap图,感觉思路清晰多了:)
- 2009-03-27 22:09
- 浏览 1243
- 评论(0)
今天中午因为点事,去食堂晚了点,去那里基本上只剩了点残羹冷炙了,我拿了个碗左看右看,晃来晃去,实在不晓得吃点啥子好,忍不住叹了声气,结果被一位耳尖的打饭的大婶听到了,“小伙子吃饭的时候要高兴点,不要唉声叹气的哦,下次记得来早点啊”,逗得哥们真乐了。就冲这服务,来三两饭,剩菜包了!
最近要交个作业,翻译了篇Scott W. Ambler的论文,贴出来给大家拍拍砖
附上原文
------------------------------------------------------------------------------------
关系数据库测试驱动开发
在测试先行开发(
TFD
)中,开发人员通过迭代的方 ...
调用指令(Call)
- 博客分类:
- ASM
调用指令分为近(near)调用和远(far)调用。
如果被调用子程序的属性是近的,那么,CALL指令将产生一个近调用,它把该指令之后地址的偏移量(用一个字来表示的)压栈,把被调用子程序入口地址的偏移量送给指令指针寄存器IP即可实现执行程序的转移。
注意:因为将下一条指令地址入栈了,所以根据ebp访问第一参数时地址要增加四个字节
如果被调用子程序的属性是远的,那么,CALL指令将产生一个远调用。这时,调用指令不仅要把该指令之后地址的偏移量压进栈,而且也要把段寄存器CS的值压进栈。在此之后,再把被调用子程序入口地址的偏移量和段值分别送给IP和CS,这样完成了子程序的远调用操作。远调用指令的 ...
- 2008-10-11 16:44
- 浏览 1388
- 评论(0)