`
文章列表

数据的四个特征

我们总是在谈数据分析,那么到底什么是数据,数据有什么特征呢?这个问题虽基础却重要。 这里我们所说的数据,仅指应用于企业运营的市场信息。它是认识事物的中间环节,是事物的表面特征,其作用在于消除事物的不确 ...
HBase put一条数据 Region 路由规则 1.客户端put接口 org.apache.hadoop.hbase.client.HTableInterface.put(Put put) org.apache.hadoop.hbase.client.HTable.put public void put(final Put put) throws IOException { //缓存数据 doPut(put); if (autoFlush) { //提交数据刷写到磁盘请求 flushCommits(); } ...
比如下面脚本用来做ssh无密码登陆,自动输入确认yes和密码信息,用户名,密码,hostname通过参数来传递 ssh.exp     #!/usr/bin/expect set timeout 10 set username [lindex $argv 0] set password [lindex $argv 1] set hostname [lindex $argv 2] spawn ssh-copy-id -i .ssh/id_rsa.pub $username@$hostname expect "yes/no" send "yes\ ...
         Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。最近准备装ambari,在网上找了许久,没找到比较系统的ambari安装过程,于是,就根据官网进行了安装,下面是我推荐的正确的较完善的安装方式,希望对大家有所帮助。   一、准备工作   1、系统:我的系统是CentOS6.2,x86_64,本次集群采用两个节点。管理节点:192.168.1 ...
reduce task启动后的第一阶段是shuffle(向map端fetch数据),每次fetch数据的时候都可能因为connect timeout,read timeout,checksum error等原因时报,因而reduce task为每个map设置了一个计数器,用以记录fetch该map输出时失败的次数,当失败次数达到一定阀值的时候。会通知MRAppMaster 从该map fetch数据时失败的次数太多了,并打印想要的log;   该阀值计算方式:   org.apache.hadoop.mapreduce.v2.app.job.impl.JobImpl.java ...
有时候把svn的代码传到服务器,会不小心传上svn的系统文件,这些文件都是用于版本控制的,在生产环境,总有点不爽。在linux下可以用一个命令删除,命令如下:find . -name .svn | xargs rm -rf 上述命令要在代码所在目录运行哦。 svn的版本控制,也会有类似问题,方法类似,换一下名字,如下: find . -name .cvs | xargs rm -rf Popularity: 18%
hive要支持hadoop-0.23.1需要自己从源码编译,具体的做法如下:   $ svn co http://svn.apache.org/repos/asf/hive/trunk hive $ cd hive $ ant clean package -Dhadoop.version=0.23.1 -Dhadoop-0.23.version=0.23.1 -Dhadoop.mr.rev=23  
    1.安装NFS,配置共享目录 安装配置NFS NFS是Network File System的简写,即网络文件系统.网络文件系统是FreeBSD支持的文件系统中的一种,也被称为NFS. NFS允许一个系统在网络上与它人共享目录和文件。通过使用NFS,用户和程序可以象访问本地文件一样访问远端系统上的文件。CentOS系统中如何安装和配置nfs呢,下面我们就来学习一下方法。首先我们来介绍一些会用到的CentOS系统命令。 1. 安装 $yum -y install nfs-utils 2. 创建共享目录 $su root (切换到root用户,因为NFS只能被root用户使用 ...
  软件:   hadoop-0.20.2-cdh-u3 hypertable-0.9.5.6 ruby-1.8.7 CentOS-6.2     yum -y install gcc yum -y install gcc-c++ yum install make   安装 BerkeleyDB4.6+ ================================== tar zxvf db-5.3.21.gz  cd db-5.3.21 cd build_unix/ ../dist/configure --prefix=/usr/local/berkel ...
  Hbase插入数据的过程大致是: 客户端提交请求给region server(这中间会有作一些缓存) region server接收到请求,判断如果是put请求,将其put到memstore 每次memstore的操作,都会检查memstore是否操作一个阈值,如果超过,就开始执行flush(),这个flush其实就是从内存中的KeyValue对持久化到HStore(也就是HFile)上面 下面我们来看一条数据时怎么进入到hbase的吧: 客户端:   HTable.java 执行put操作 public void put(final Put put) thr ...
select t2.username,t2.sid,t2.serial#,t2.logon_time from v$locked_object t1,v$session t2 where t1.session_id=t2.sid order by t2.logon_time;--查看锁
  例如我们要对一张表按照时间创建分区:   create table cmp ( transaction_id number primary key, item_id number(8) not null, item_description varchar2(300), transaction_date date not null ) partition by range (transaction_date) ( partition part_01 values less t ...

hbase编译

check 代码:svn co http://svn.apache.org/repos/asf/hbase/trunk hbase-core-trunk   安装maven   在hbase根目录下执行mvn package -Dmaven.test.skip.exec=true
ant compile-c++-libhdfs -Dislibhdfs=true
我们可以基于google talk开发一个属于自己的聊天客户端 代码如下: public class GoogleTalk { /** * @param args * @throws XMPPException */ public static void main(String[] args) throws XMPPException { XMPPConnection.DEBUG_ENABLED = true; XMPPConnection connection = new XMPPConnection("gmail.com"); connec ...
Global site tag (gtag.js) - Google Analytics