[置顶] HBase源代码阅读

博客分类：

Parallel

最近比较空闲，好好研究下了下HBase的源码(0.89.20100621)，其中一部分整理了下，写了些notes，贴出来Share一下。后面计划期望能有空整理成一个完整的系列出来： 1.脚本 2.HMaster 3.HRegionServer 4.HMaster与HRegionServer的RPC 5.HMaster对HRegion的管理 6.数据逻辑模型 7.存储模型 8.Client与HMaster和HRegionServer的交互其中有一些细节都还搞太清楚，还得慢慢仔细研究:)

2010-09-02 20:28
浏览 3371
评论(0)
分类:互联网

deepnet: deep learning toolkit in R

博客分类：

Machine Learning

前段农闲时间，用R实现了些neural network和deep learning相关的算法，把这些代码做了个package叫deepnet,而且已经上传到CRAN上了。有兴趣的同学可以安装玩玩（R中执行命令:install.packages("deepnet")）.package介绍文档：http://cran.r-project.org/web/packages/deepnet/index.html 已经实现的算法包括bp, rbm训练，deep belief net, deep auto-encoder。后续有时间的话打算接着实现cnn和rnn。 ...

2014-03-20 23:00
浏览 1906
评论(0)
分类:开源软件

关于spark各种蛋疼的事

博客分类：

Parallel

spark

spark作为UC Berkeley开源的一个计算框架，现在已经是0.7.0版本了，但还不是特别成熟，离实际生产使用还有些距离。最近花了一周左右时间折腾了下，终于顺利的搭建好了一个6台机器的集群，并能顺利跑些大点数据，现在把过程� ...

2013-03-24 17:12
浏览 21306
评论(2)
分类:互联网

R学习随笔记录

博客分类：

Machine Learning

函数：tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE) 对向量x进行分组处理；分组规则由参数INDEX指定，INDEX是个factor类型，长度与向量x一致，指定x成员的类别；FUN为处理函数 lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offs ...

2011-11-15 11:03
浏览 1187
评论(0)
分类:编程语言

R中几种随机分布函数

博客分类：

Machine Learning

高斯分布 rnorm(n, mean=0, sd=1) 指数分布 rexp(n, rate=1) gama分布 rgamma(n, shape, scale=1) 泊松分布 rpois(n, lambda) Weibull分布 rweibull(n, shape, scale=1) Cauchy分布 rcauchy(n, location=0, scale=1) beta分布 rbeta(n, shape1, shape2) S(tudent)分布 rt(n, df) Fisher-Snedecor rf(n, df1, df2) P ...

2011-11-10 09:44
浏览 3324
评论(0)
分类:编程语言

改进HBase的Balance策略

博客分类：

Parallel

HBase的balance做的实在有点土，其策略就是让各台rs上负载的region数量一致，可能会导致hot region分布不均匀，而 rs的负载不均衡，已经有同事做了些改进，将同一table的region尽量分配到不同rs上，这中策略会有所改善，但仍无法确保 hot region的均匀分布。考虑根据region最近所服务的请求数作为balance的依据，使每台rs上的region所服务的请求数相对均衡，很有可能会大大改进过热数据访问的情况。

2011-07-18 22:28
浏览 2951
评论(0)
分类:互联网

在IPad上整理了GBDT的笔记

博客分类：

Machine Learning

Mapreduce 算法

晚上闲来无聊，趟床上用IPad整理了GBDT原理的笔记，在IPad上输入真是件痛苦的事情。最近一直在考虑能否用MapReduce实现GBDT算法，大体思路有了，但还不够清晰。

2011-04-03 13:59
浏览 2886
评论(0)
分类:互联网

真的能“以史为鉴”吗

博客分类：

生活小记

很多人问，为什么看历史，很多人回答，以史为鉴。现在我来告诉你，以史为鉴，是不可能的。因为我发现，其实历史没有变化，技术变了，衣服变了，饮食变了，这都是外壳，里面什么都没变化，还是几千年前那一套，转来转去，该犯的错误还是要犯，该杀的人还是要杀，岳飞会死，袁崇焕会死，再过一千年，还是会死。所有发生的，是因为它有发生的理由，能超越历史的人，才叫以史为鉴，然而我们终究不能超越，因为我们自己的欲望和弱点。所有的错误，我们都知道，然而终究改不掉。能改的，叫做缺点，不能改的，叫做弱点。” 《明朝那些事》

2010-12-31 12:38
浏览 976
评论(0)
分类:非技术

超可爱的小朋友

博客分类：

生活小记

旅游

一日，乘公交游西湖。车上有两个邻座的小朋友，一个中班，一个小班。中班小朋友问小班小朋友：2+2=？。小班小朋友掰指头数了数：4。中班小朋友又问：4+4=？小班小朋友又掰指头数了数：8。中班小朋友又问：5+5=？小班小朋友费了老大劲，数完两只手的指头：10。中班小朋友仍不甘心：10+10=？小班小朋友一脸茫然，低头抠手指头。中班小朋友乘胜追击：20+20=？小班小朋友仍答不上来。中班小朋友春风得意，继续追问：1w+1w=？.....2w + 2w = ？.......... 小班小 ...

2010-10-13 00:24
浏览 1117
评论(0)
论坛回复 / 浏览 (0 / 1865)
分类:非技术

转贴一个内部贴子--海量存储计算

博客分类：

Parallel

Hadoop Cassandra HBase MongoDB 数据结构

技术领域—海量存储计算 PB 时代的来临 Petabyte ，2 的50 次方个字节。这个对很多人还是很陌生的计量单位，已经变得越来越普遍和触手可及。2004 年8 月，GOOGLE 日常任务输入的数据已经达到了3PB ；2005 年Mark Hurd 从Teradata 来到HP 出任CEO ，开始建设基于Neo View 的8PB 的HP EDW 。2006 年，YAHOO 构建了世界上第一个基于ORACLE RAC 的PB 级别数据中心。2007 年9 月，GOOGLE 的日常任务的输入 ...

2010-10-12 11:31
浏览 2791
评论(1)
分类:互联网

HBase源代码-7-数据存储

博客分类：

Parallel

HBase 配置管理 F#J#

7.存储模型 regionserver负责region内数据的存储及处理客户端的读写请求: 写请求:当regionserver接受到写请求，先写入一个WAL(write-ahead log) HLog中(同一regionserver的所有log写入同一文件中);然后再写入缓存HStore中; � ...

2010-10-10 16:53
浏览 3712
评论(1)
分类:互联网

HBase源代码阅读-6-数据逻辑模型HTableDescriptor

博客分类：

Parallel

HBase 数据结构 Cache

6.数据逻辑模型HTableDescriptor HBase中表结构由HTableDescriptor描述(包括HColumnDescriptor),对表的新增\修改\删除操作在接口HMasterInterface中定义,而该接口由HMaster实现 (1)HTableDescriptor包含：表名,byte[]和String格式; 表的元信息,以key-value形式存储,包括文件最大的大小(默认256M)、是否只读、flush时内存占用大小(默认64M)、是否root或m ...

2010-09-18 11:11
浏览 5113
评论(0)
分类:互联网

HBase源码阅读-5-HMaster对HRegion的管理

博客分类：

Parallel

HBase 算法工作

5.HMaster对HRegion的管理:master将region的分派,状态管理等工作委托给RegionManager (1)RegionManager成员变量：rootRegionLocation,root region所在regionserver地址; rootScannerThread和MetaScanner,root及meta region的扫描线程; numberOfMetaRegions,meta regions数量由rootScannerThre ...

2010-09-15 19:20
浏览 2636
评论(0)
分类:互联网

HBase源码阅读-4-HMaster与HRegionServer的RPC

博客分类：

Parallel

HBase 网络协议配置管理 thread F#

4.HMaster与HRegionServer的RPC 启动master时创建一个Server的实例,利用反射机制提供HMaster的方法调用服务;Server继承自抽象类HBaseServer; HBaseServer通过异步io(nio包)提供了非阻塞的网络连接 4.1 RPC Server的创建及启动过程 (1)HBaseServer初始化参数:绑定地址,端口,调用队列大小,最大连接数,最大闲置连接数等 ...

2010-09-06 11:25
浏览 4794
评论(0)
分类:互联网

HBase源码阅读-3-HRegionServer

博客分类：

Parallel

HBase 配置管理

3.HRegionServer:管理regions，并向HMaster报告自己状态 3.1 regionserver启动过程 (1)读取一些配置：机器名,端口,客户端重试次数,与master交互间隔,rpc超时 (2)创建Worker线程处理来自master的请求(????) (3)创建一个HBaseServer的实例提供IPC服务以处理Client的请求 (4)创建HServerInfo实例保持regionserver信息：地址，机器名，监听端口等 ...

2010-09-02 20:33
浏览 3200
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] HBase源代码阅读

deepnet: deep learning toolkit in R

关于spark各种蛋疼的事

R学习随笔记录

R中几种随机分布函数

改进HBase的Balance策略

在IPad上整理了GBDT的笔记

真的能“以史为鉴”吗

超可爱的小朋友

转贴一个内部贴子--海量存储计算

HBase源代码-7-数据存储

HBase源代码阅读-6-数据逻辑模型HTableDescriptor

HBase源码阅读-5-HMaster对HRegion的管理

HBase源码阅读-4-HMaster与HRegionServer的RPC

HBase源码阅读-3-HRegionServer

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>