`
run_xiao
  • 浏览: 195295 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论
文章列表
最近比较空闲,好好研究下了下HBase的源码(0.89.20100621),其中一部分整理了下,写了些notes,贴出来Share一   下。后面计划期望能有空整理成一个完整的系列出来:   1.脚本 2.HMaster 3.HRegionServer 4.HMaster与HRegionServer的RPC 5.HMaster对HRegion的管理   6.数据逻辑模型 7.存储模型 8.Client与HMaster和HRegionServer的交互   其中有一些细节都还搞太清楚,还得慢慢仔细研究:)
前段农闲时间,用R实现了些neural network和deep learning相关的算法,把这些代码做了个package叫deepnet,而且已经上传到CRAN上了。有兴趣的同学可以安装玩玩(R中执行命令:install.packages("deepnet")).package介绍文档:http://cran.r-project.org/web/packages/deepnet/index.html ​ 已经​实现的算法包括bp, rbm训练,deep belief net, deep auto-encoder。后续有时间的话打算接着实现cnn和rnn。 ​ ...
spark作为UC Berkeley开源的一个计算框架,现在已经是0.7.0版本了,但还不是特别成熟,离实际生产使用还有些距离。最近花了一周左右时间折腾了下,终于顺利的搭建好了一个6台机器的集群,并能顺利跑些大点数据,现在把过程 ...
函数:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE) 对向量x进行分组处理;分组规则由参数INDEX指定,INDEX是个factor类型,长度与向量x一致,指定x成员的类别;FUN为处理函数 lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offs ...
高斯分布 rnorm(n, mean=0, sd=1) 指数分布 rexp(n, rate=1) gama分布 rgamma(n, shape, scale=1) 泊松分布 rpois(n, lambda) Weibull分布 rweibull(n, shape, scale=1) Cauchy分布 rcauchy(n, location=0, scale=1) beta分布 rbeta(n, shape1, shape2) S(tudent)分布 rt(n, df) Fisher-Snedecor rf(n, df1, df2) P ...
HBase的balance做的实在有点土,其策略就是让各台rs上负载的region数量一致,可能会导致hot region分布不均匀,而   rs的负载不均衡,已经有同事做了些改进,将同一table的region尽量分配到不同rs上,这中策略会有所改善,但仍无法确保   hot region的均匀分布。考虑根据region最近所服务的请求数作为balance的依据,使每台rs上的region所服务的请求数相   对均衡,很有可能会大大改进过热数据访问的情况。
晚上闲来无聊,趟床上用IPad整理了GBDT原理的笔记,在IPad上输入真是件痛苦的事情。   最近一直在考虑能否用MapReduce实现GBDT算法,大体思路有了,但还不够清晰。  
很多人问,为什么看历史,很多人回答,以史为鉴。   现在我来告诉你,以史为鉴,是不可能的。因为我发现,其实历史没有变化,技术变了,衣服变了,饮食变了,这都是外壳,里面什么都没变化,还是几千年前那一套,转来转去,该犯的错误还是要 犯,该杀的人还是要杀,岳飞会死,袁崇焕会死,再过一千年,还是会死。   所有发生的,是因为它有发生的理由,能超越历史的人,才叫以史为鉴,然而我们终究不 能超越,因为我们自己的欲望和弱点。所有的错误,我们都知道,然而终究改不掉。能改的,叫做缺点,不能改的,叫做弱点。”   《明朝那些事》    
一日,乘公交游西湖。车上有两个邻座的小朋友,一个中班,一个小班。   中班小朋友问小班小朋友:2+2=?。   小班小朋友掰指头数了数:4。   中班小朋友又问:4+4=?   小班小朋友又掰指头数了数:8。   中班小朋友又问:5+5=?   小班小朋友费了老大劲,数完两只手的指头:10。   中班小朋友仍不甘心:10+10=?   小班小朋友一脸茫然,低头抠手指头。   中班小朋友乘胜追击:20+20=?   小班小朋友仍答不上来。   中班小朋友春风得意,继续追问:1w+1w=?.....2w + 2w = ?..........   小班小 ...
  技术领域—海量存储计算   PB 时代的来临 Petabyte ,2 的50 次方个字节。这个对很多人还是很陌生的计量单位,已经变得越来越普遍和触手可及。2004 年8 月,GOOGLE 日常任务输入的数据已经达到了3PB ;2005 年Mark Hurd 从Teradata 来到HP 出任CEO ,开始建设基于Neo View 的8PB 的HP EDW 。2006 年,YAHOO 构建了世界上第一个基于ORACLE RAC 的PB 级别数据中心。2007 年9 月,GOOGLE 的日常任务的输入 ...
7.存储模型         regionserver负责region内数据的存储及处理客户端的读写请求:         写请求:当regionserver接受到写请求,先写入一个WAL(write-ahead log) HLog中(同一regionserver的所有log写入同一文件中);然后再写入缓存HStore中;   ...
6.数据逻辑模型HTableDescriptor             HBase中表结构由HTableDescriptor描述(包括HColumnDescriptor),对表的新增\修改\删除操作在接口HMasterInterface中定义,而该接口由HMaster实现             (1)HTableDescriptor包含:                 表名,byte[]和String格式;                 表的元信息,以key-value形式存储,包括文件最大的大小(默认256M)、是否只读、flush时内存占用大小(默认64M)、是否root或m ...
5.HMaster对HRegion的管理:master将region的分派,状态管理等工作委托给RegionManager         (1)RegionManager成员变量:rootRegionLocation,root region所在regionserver地址;                             rootScannerThread和MetaScanner,root及meta region的扫描线程;                             numberOfMetaRegions,meta regions数量由rootScannerThre ...
4.HMaster与HRegionServer的RPC             启动master时创建一个Server的实例,利用反射机制提供HMaster的方法调用服务;Server继承自抽象类HBaseServer;             HBaseServer通过异步io(nio包)提供了非阻塞的网络连接             4.1 RPC Server的创建及启动过程                 (1)HBaseServer初始化参数:绑定地址,端口,调用队列大小,最大连接数,最大闲置连接数等                                     ...
3.HRegionServer:管理regions,并向HMaster报告自己状态                3.1 regionserver启动过程             (1)读取一些配置:机器名,端口,客户端重试次数,与master交互间隔,rpc超时             (2)创建Worker线程处理来自master的请求(????)             (3)创建一个HBaseServer的实例提供IPC服务以处理Client的请求             (4)创建HServerInfo实例保持regionserver信息:地址,机器名,监听端口等     ...
Global site tag (gtag.js) - Google Analytics