- 浏览: 122793 次
- 性别:
- 来自: 北京
最新评论
文章列表
该博客已经完全转移到http://sunhs.me
中并增加更多新的技术内容(hadoop为
主),欢迎访问!
该博客已经完全转移到http://sunhs.me
中并增加更多新的技术内容(hadoop为
主),欢迎访问!
1.hive-site.xml中增加配置
<property>
<name>hive.hwi.listen.host</name>
<value>0.0.0.0</value>
<description>this is the host address the hive web interface will listen on</descr ...
该博客已经完全转移到http://sunhs.me
中并增加更多新的技术内容(hadoop为
主),欢迎访问!
1, hive 命令行模式,直接输入hive目录/bin/hive的执行程序,或者输入 hive –service cli
用于linux平台命令行查询,查询语句基本跟mysql查询语句类似
2, hive web界面的启动方式,hive --service hwi
用于通过浏览器来访问hive,感觉没多大用途
3, hive 远程服务 (端口号10000) 启动方式 hive --service hiveserv ...
该博客已经完全转移到http://sunhs.me
中并增加更多新的技术内容(hadoop为
主),欢迎访问!
1.列裁剪
查询时我只关心用到的那几个列。
需要设置:hive.optimize.cp = true
2.分区裁剪
查询过程中减少不必要的分区。
hive配置: hive> set mapred.job.tarcker = 127.0.0.0:50030; hive> set mapred.reduce.tasks=100; hive> set -v; 查看当前设定的所有信息设定本地模式: hive> set mapred.job.tracker=local; hive> set hive.exec.mode.local.auto = flase; ...
Reducer数目最佳值的设定reducer slots的总数 = 集群中的总的节点数*每个节点有多少个slotsReducer数目的最佳值和reducer slots的数目有关,通常情况下让Reducers的数目略小于reducer slots的数目在设置Reducer的数目的时候也要考虑Mapper的数量,如果Reducer的数量大于Mapper的数量的话,那么就会造成在执行的过程中多出的Reducer不会工作,造成资源的浪费
用户定制PartitionerPartition:完成Map节点数据的中间结果向Reduce节点的分区处理在MapReduce程序中,Partitioner决定Map节点的输出将被分区到那个Reduce节点上去,MapReduce提供的默认的Partitioner是HashPartitioner他根据每条数据记录的主键值进行Hash操作,获取一个非负整数的Hash码,然后用当前作业的Reduce数进行取模运算,此时决定记录将被分到哪个Reduce节点上去定制Partitioner可以继承HashPartitioner,然后重载getPartition()方法,在该方法中用新的主键值进一步调用Ha ...
该博客已经完全转移到http://sunhs.me
中并增加更多新的技术内容(hadoop为
主),欢迎访问!
mapreduce中用户自定义数据类型hadoop内置的数据类型:BooleanWritableByteWritableDoubleWritableFloatWritable
package mapredue.wordcount;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOut ...
HBase的安装
1.单击模式的安装
<1>解压 tar -zxvf hbase-*.tar.gz
<2>编辑HBASE_HOME/conf/hbase-env.sh
其中设置JAVA_HOME export JAVA_HOME =
<3>编辑HBASE_HOME /conf/hbase-site.xml
设置属性hbase.rootdir
<configuration>
<propert ...
HBase基本的shell操作
0.进入hbase的shellhbase下bin/hbase shell 出现一下消息表示进入成功HBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 0.95.1-hadoop1, rUnknown, Thu Jun 6 08:30:30 CEST 2013hbase(main):001:0> 通过命令status可以查看h ...
关系数据库的连接和访问1.从数据库中输入数据DBInputFormat提供从数据库读取数据的格式DBRecordReader提供读取数据记录的接口Hadoop允许直接从数据库读取数据,但是这样的话频繁读取会大大加重数据库的负载,所以一般不建议这样 ...
该博客已经完全转移到http://sunhs.me
中并增加更多新的技术内容(hadoop为
主),欢迎访问!
package test;
import java.io.IOException;
import java.util.HashMap;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apac ...
package test;
import java.util.Map;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org ...
HBase的逻辑模型和物理模型逻辑模型
行键是数据行在表中的唯一标识,并作为检索记录的主键。在HBase中访问表的方式有三种:1.通过单个行键访问2.给定行键额范围访问3.全表扫描表中的列定义为:<family>:<qualifier>(<列族>:<限定符>)HBase提供了两种数据版本的回收方式:1.对每个数据单元只存储指定个数的最新单元2.保存最近一段时间内的版本元素由行键 列 时间戳唯一确定,元素中的数据以字节码的形式存储,没有类型之分物理模型