- 浏览: 283569 次
- 性别:
- 来自: 广州
最新评论
-
jpsb:
...
为什么需要分布式? -
leibnitz:
hi guy, this is used as develo ...
compile hadoop-2.5.x on OS X(macbook) -
string2020:
撸主真土豪,在苹果里面玩大数据.
compile hadoop-2.5.x on OS X(macbook) -
youngliu_liu:
怎样运行这个脚本啊??大牛,我刚进入搜索引擎行业,希望你能不吝 ...
nutch 数据增量更新 -
leibnitz:
also, there is a similar bug ...
2。hbase CRUD--Lease in hbase
文章列表
一. Writable
note:part of codes are from other's blog!here is a integrated and optimized shards.
package test;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.DefaultStringifier;
public class serializerWritable {
/**
* @param a ...
The client creates the file by calling create() on DistributedFileSystem (step 1 in
Figure 3-3). DistributedFileSystem makes an RPC call to the namenode to create a new
file in the filesystem’s namespace, with no blocks associated with it (step 2). The name-
node performs various checks to make su ...
The DistributedFileSystem returns a FSDataInputStream (an input stream that supports
file seeks) to the client for it to read data from. FSDataInputStream in turn wraps a
DFSInputStream, which manages the datanode and namenode I/O.
The client then calls read() on the stream (step 3). DFSInputStrea ...
根据摩尔定律,计算机的CPU性能每18m就会提升一倍,但由晶体管设计性能在已经达到物理上的极限(我在想,如果不改变(改革)怎么能适应现代运算储存的需求?)在05年,这个定律已经不攻自破,使得程序员要更加关注硬件性能问题,才问实现复杂的系统。
所以现在CPU都以multi cores来变通达到性能上的提升。另外,现在internet技术的广泛应用,产生的数据是海量的,最简单的例子就是SE了.鉴于这些,人们已经不再厚望于利用若干台高性能机器来实现复杂的系统,现在的大型编程模型都是大多要求分布计算,分布储存的并行性,分发性要求(如云计算等等)。同时我又想,即使你有一台超级计算机,形如1t内存, ...
vvvvvvvvv config vvvvvvvv
set domain alias in all nodes(optional
must
):
/etc/hosts
#let the master accesses all the slaves without passwords:
#method 1:
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hadoop@slave
#method 2:
copy $HOME/.ssh/id_rsa.pub to the slaves,
then login to slaves:cat id_rsa.p ...
vvvvvvvvvvvv config vvvvvvvvvvvvvvv
安装jdk:
sudo -s ./jdk.bin
set environments:
/etc/profile #global
~/.profile #personalize
#optional
sudo addgroup hadoopgrp
sudo adduser --ingroup hadoopgrp hadoop #psw:hadoop
#switch,and let the hadoop user machine have a confidence to the requ ...
只需要在hadoop-env.sh中修改java home,
不需要format,不需要copyFromLocal to hdfs
注意使用的是standalone状态下的hadoop
use 5s
hadoop@leibnitz-laptop:/cc/hadoop/standalone/hadoop-0.20.2$ ./bin/hadoop jar hadoop-0.20.2-examples.jar wordcount input/cluster output/wordcount
11/02/26 03:19:40 INFO jvm.JvmMetrics: Initializ ...
here is a handy steps to intall zk 3.2.2
a.modify to zoo.cfg to add machines mapping.
note:server.1=master:2888:3888
the first port is used to connect to master(or listen to followers if this is a leader)
second one is used to leader election.
b.add a myid file which contains a id that c ...
很想有多台机器实现一个集群计算,但实际上没那么多资源,连ip(在家)也是只有一个,迫不得已就想起虚拟器.
其实之前也想装 了,只是觉得这样安装 可能出现很多问题(这次体现就深刻了!),影响学习进度 .
我没用个vm,第一次安装 ...
这几天尝试进行leader/follower的测试,当然目前还没去看源码实现.但觉得还是相当的.
以下是对网上一段代码的修改,因为原来的测不出来什么东西.
note:
运行时只有两个节点时(leader&follower),当leader down后,the other one 一般很少自动 ...
源自google的chubby论文,yahoo的实现,注就了我们有机会看到如此优秀的协作工具-zk.
当我在看分布式系统的书籍时,同时在学习zk,可以进行比较分析,很好!感觉这东西的原理或多或少已经在早前某些项目上接触到,只是没有那么具体和灵活。比如开发中遇到的索引同步问题,loadbalance切换servers问题,之前我们是用MC之类的工具实现的等等。
我看来,它形如:
a.DNS的分层树状处理。(不知道gg是不是从中得到了启发?)
B.分布式事务处理监听器TPM.
C.大型分布式系统cooperator
当然了,它是基于观察者模式来实现,事件监听来知晓,在如 ...
经过几天来的看资料,写代码,终于对这个东东有点眉目了。
package linhon.crud;
import java.util.Date;
import java.util.Map.Entry;
import java.util.NavigableMap;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache. ...
2010年就快结束了,对于年初的一番话就好像昨天说的一样记忆犹新。
这一年里,诱惑的事情很多,很大,也做不到strong mind。以至于迈向目标的进程有所放缓,甚至停滞。。。也许你可以说我在找借口,但有些事情确实就是力不从心,比如,怎样克服坏习惯这问题,也不是一朝一夕就可以实现的。还是以前同事说得好,不要急于求成呀!
在2011年,目标依然是那个,但进度要更快,处理事情要更专一和果断,如果这年不能如愿以尝地实现目标,我相信以后都没必要再搞开发了,oh,my god,help me...
最后,我以二句话结束这篇文章:
进步得慢都可以说是退步;
S=vt