- 浏览: 195295 次
- 性别:
- 来自: 武汉
最新评论
-
hagendashao:
此两本书都写的很细致,感谢楼主分享。
两本关于Hadoop的书 -
fireinwind:
wing_0 写道你好,
以 spark-0.7.0/run ...
关于spark各种蛋疼的事 -
wing_0:
你好,以 spark-0.7.0/run -jar /home ...
关于spark各种蛋疼的事 -
juluren:
参考http://apidoc.cn/archives/47h ...
Java往Excel写入海量数据 -
juluren:
http://apidoc.cn/archives/47
Java往Excel写入海量数据
文章列表
最近比较空闲,好好研究下了下HBase的源码(0.89.20100621),其中一部分整理了下,写了些notes,贴出来Share一
下。后面计划期望能有空整理成一个完整的系列出来:
1.脚本
2.HMaster
3.HRegionServer
4.HMaster与HRegionServer的RPC
5.HMaster对HRegion的管理
6.数据逻辑模型
7.存储模型
8.Client与HMaster和HRegionServer的交互
其中有一些细节都还搞太清楚,还得慢慢仔细研究:)
前段农闲时间,用R实现了些neural network和deep learning相关的算法,把这些代码做了个package叫deepnet,而且已经上传到CRAN上了。有兴趣的同学可以安装玩玩(R中执行命令:install.packages("deepnet")).package介绍文档:http://cran.r-project.org/web/packages/deepnet/index.html
已经实现的算法包括bp, rbm训练,deep belief net, deep auto-encoder。后续有时间的话打算接着实现cnn和rnn。
...
spark作为UC Berkeley开源的一个计算框架,现在已经是0.7.0版本了,但还不是特别成熟,离实际生产使用还有些距离。最近花了一周左右时间折腾了下,终于顺利的搭建好了一个6台机器的集群,并能顺利跑些大点数据,现在把过程 ...
R学习随笔记录
- 博客分类:
- Machine Learning
函数:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
对向量x进行分组处理;分组规则由参数INDEX指定,INDEX是个factor类型,长度与向量x一致,指定x成员的类别;FUN为处理函数
lm(formula, data, subset, weights, na.action,
method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
singular.ok = TRUE, contrasts = NULL, offs ...
R中几种随机分布函数
- 博客分类:
- Machine Learning
高斯分布 rnorm(n, mean=0, sd=1)
指数分布 rexp(n, rate=1)
gama分布 rgamma(n, shape, scale=1)
泊松分布 rpois(n, lambda)
Weibull分布 rweibull(n, shape, scale=1)
Cauchy分布 rcauchy(n, location=0, scale=1)
beta分布 rbeta(n, shape1, shape2)
S(tudent)分布 rt(n, df)
Fisher-Snedecor rf(n, df1, df2)
P ...
改进HBase的Balance策略
- 博客分类:
- Parallel
HBase的balance做的实在有点土,其策略就是让各台rs上负载的region数量一致,可能会导致hot region分布不均匀,而
rs的负载不均衡,已经有同事做了些改进,将同一table的region尽量分配到不同rs上,这中策略会有所改善,但仍无法确保
hot region的均匀分布。考虑根据region最近所服务的请求数作为balance的依据,使每台rs上的region所服务的请求数相
对均衡,很有可能会大大改进过热数据访问的情况。
晚上闲来无聊,趟床上用IPad整理了GBDT原理的笔记,在IPad上输入真是件痛苦的事情。
最近一直在考虑能否用MapReduce实现GBDT算法,大体思路有了,但还不够清晰。
真的能“以史为鉴”吗
- 博客分类:
- 生活小记
很多人问,为什么看历史,很多人回答,以史为鉴。
现在我来告诉你,以史为鉴,是不可能的。因为我发现,其实历史没有变化,技术变了,衣服变了,饮食变了,这都是外壳,里面什么都没变化,还是几千年前那一套,转来转去,该犯的错误还是要
犯,该杀的人还是要杀,岳飞会死,袁崇焕会死,再过一千年,还是会死。
所有发生的,是因为它有发生的理由,能超越历史的人,才叫以史为鉴,然而我们终究不
能超越,因为我们自己的欲望和弱点。所有的错误,我们都知道,然而终究改不掉。能改的,叫做缺点,不能改的,叫做弱点。”
《明朝那些事》
一日,乘公交游西湖。车上有两个邻座的小朋友,一个中班,一个小班。
中班小朋友问小班小朋友:2+2=?。
小班小朋友掰指头数了数:4。
中班小朋友又问:4+4=?
小班小朋友又掰指头数了数:8。
中班小朋友又问:5+5=?
小班小朋友费了老大劲,数完两只手的指头:10。
中班小朋友仍不甘心:10+10=?
小班小朋友一脸茫然,低头抠手指头。
中班小朋友乘胜追击:20+20=?
小班小朋友仍答不上来。
中班小朋友春风得意,继续追问:1w+1w=?.....2w + 2w = ?..........
小班小 ...
技术领域—海量存储计算
PB
时代的来临
Petabyte
,2
的50
次方个字节。这个对很多人还是很陌生的计量单位,已经变得越来越普遍和触手可及。2004
年8
月,GOOGLE
日常任务输入的数据已经达到了3PB
;2005
年Mark Hurd
从Teradata
来到HP
出任CEO
,开始建设基于Neo View
的8PB
的HP EDW
。2006
年,YAHOO
构建了世界上第一个基于ORACLE RAC
的PB
级别数据中心。2007
年9
月,GOOGLE
的日常任务的输入 ...
7.存储模型
regionserver负责region内数据的存储及处理客户端的读写请求:
写请求:当regionserver接受到写请求,先写入一个WAL(write-ahead log) HLog中(同一regionserver的所有log写入同一文件中);然后再写入缓存HStore中;
...
6.数据逻辑模型HTableDescriptor
HBase中表结构由HTableDescriptor描述(包括HColumnDescriptor),对表的新增\修改\删除操作在接口HMasterInterface中定义,而该接口由HMaster实现
(1)HTableDescriptor包含:
表名,byte[]和String格式;
表的元信息,以key-value形式存储,包括文件最大的大小(默认256M)、是否只读、flush时内存占用大小(默认64M)、是否root或m ...
5.HMaster对HRegion的管理:master将region的分派,状态管理等工作委托给RegionManager
(1)RegionManager成员变量:rootRegionLocation,root region所在regionserver地址;
rootScannerThread和MetaScanner,root及meta region的扫描线程;
numberOfMetaRegions,meta regions数量由rootScannerThre ...
4.HMaster与HRegionServer的RPC
启动master时创建一个Server的实例,利用反射机制提供HMaster的方法调用服务;Server继承自抽象类HBaseServer;
HBaseServer通过异步io(nio包)提供了非阻塞的网络连接
4.1 RPC Server的创建及启动过程
(1)HBaseServer初始化参数:绑定地址,端口,调用队列大小,最大连接数,最大闲置连接数等
...
3.HRegionServer:管理regions,并向HMaster报告自己状态
3.1 regionserver启动过程
(1)读取一些配置:机器名,端口,客户端重试次数,与master交互间隔,rpc超时
(2)创建Worker线程处理来自master的请求(????)
(3)创建一个HBaseServer的实例提供IPC服务以处理Client的请求
(4)创建HServerInfo实例保持regionserver信息:地址,机器名,监听端口等
...