博客转移至 http://sunhs.me

该博客已经完全转移到http://sunhs.me 中并增加更多新的技术内容（hadoop为主），欢迎访问！

2014-01-20 14:52
浏览 648
评论(0)
分类:非技术

该博客已经完全转移到http://sunhs.me 中并增加更多新的技术内容（hadoop为主），欢迎访问！ 1.hive-site.xml中增加配置 <property> <name>hive.hwi.listen.host</name> <value>0.0.0.0</value> <description>this is the host address the hive web interface will listen on</descr ...

2013-09-24 09:33
浏览 1459
评论(0)
分类:互联网

Hive的三种启动方式及用途

hadoop hive

该博客已经完全转移到http://sunhs.me 中并增加更多新的技术内容（hadoop为主），欢迎访问！ 1， hive 命令行模式，直接输入hive目录/bin/hive的执行程序，或者输入 hive –service cli 用于linux平台命令行查询，查询语句基本跟mysql查询语句类似 2， hive web界面的启动方式，hive --service hwi 用于通过浏览器来访问hive，感觉没多大用途 3， hive 远程服务 (端口号10000) 启动方式 hive --service hiveserv ...

2013-09-24 09:32
浏览 1630
评论(0)
分类:互联网

Hive的优化

hadoop hive

该博客已经完全转移到http://sunhs.me 中并增加更多新的技术内容（hadoop为主），欢迎访问！ 1.列裁剪查询时我只关心用到的那几个列。需要设置：hive.optimize.cp = true 2.分区裁剪查询过程中减少不必要的分区。

2013-09-24 09:31
浏览 929
评论(0)
分类:互联网

Hive的运行时配置

hadoop hive

hive配置： hive> set mapred.job.tarcker = 127.0.0.0:50030; hive> set mapred.reduce.tasks=100; hive> set -v; 查看当前设定的所有信息设定本地模式： hive> set mapred.job.tracker=local; hive> set hive.exec.mode.local.auto = flase; ...

2013-09-23 09:41
浏览 938
评论(0)
分类:互联网

Reducer数目最佳值的设定

hadoop mapreduce

Reducer数目最佳值的设定reducer slots的总数 = 集群中的总的节点数*每个节点有多少个slotsReducer数目的最佳值和reducer slots的数目有关，通常情况下让Reducers的数目略小于reducer slots的数目在设置Reducer的数目的时候也要考虑Mapper的数量，如果Reducer的数量大于Mapper的数量的话，那么就会造成在执行的过程中多出的Reducer不会工作，造成资源的浪费

2013-09-23 09:35
浏览 906
评论(0)
分类:互联网

用户定制Partitioner

Partitioner hadoop

用户定制PartitionerPartition:完成Map节点数据的中间结果向Reduce节点的分区处理在MapReduce程序中，Partitioner决定Map节点的输出将被分区到那个Reduce节点上去，MapReduce提供的默认的Partitioner是HashPartitioner他根据每条数据记录的主键值进行Hash操作，获取一个非负整数的Hash码，然后用当前作业的Reduce数进行取模运算，此时决定记录将被分到哪个Reduce节点上去定制Partitioner可以继承HashPartitioner，然后重载getPartition()方法，在该方法中用新的主键值进一步调用Ha ...

2013-09-22 09:32
浏览 886
评论(0)
分类:互联网

mapreduce中用户自定义数据类型

mapreduce hadoop

该博客已经完全转移到http://sunhs.me 中并增加更多新的技术内容（hadoop为主），欢迎访问！ mapreduce中用户自定义数据类型hadoop内置的数据类型：BooleanWritableByteWritableDoubleWritableFloatWritable

2013-09-22 09:30
浏览 1839
评论(0)
分类:互联网

没有Map和Reduce的Mapreduce（LazyMapReduce）

hadoop Mapreduce LazyMapReduce

package mapredue.wordcount; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOut ...

2013-09-22 09:28
浏览 973
评论(0)
分类:互联网

HBase的安装

hbase hadoop

HBase的安装 1.单击模式的安装 <1>解压 tar -zxvf hbase-*.tar.gz <2>编辑HBASE_HOME/conf/hbase-env.sh 其中设置JAVA_HOME export JAVA_HOME = <3>编辑HBASE_HOME /conf/hbase-site.xml 设置属性hbase.rootdir <configuration> <propert ...

2013-09-22 09:27
浏览 849
评论(0)
分类:互联网

Hbase的基本shell操作

hbase hadoop hbase shell

HBase基本的shell操作 0.进入hbase的shellhbase下bin/hbase shell 出现一下消息表示进入成功HBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 0.95.1-hadoop1, rUnknown, Thu Jun 6 08:30:30 CEST 2013hbase(main):001:0> 通过命令status可以查看h ...

2013-09-18 09:51
浏览 1038
评论(0)
分类:互联网

mapreduce对于关系数据库的连接和访问

mapreduce mysql

关系数据库的连接和访问1.从数据库中输入数据DBInputFormat提供从数据库读取数据的格式DBRecordReader提供读取数据记录的接口Hadoop允许直接从数据库读取数据，但是这样的话频繁读取会大大加重数据库的负载，所以一般不建议这样� ...

2013-09-18 09:49
浏览 1407
评论(0)
分类:互联网

Mapreduce构建Hbase索引

hadoop mapreduce hbase hbase索引

该博客已经完全转移到http://sunhs.me 中并增加更多新的技术内容（hadoop为主），欢迎访问！ package test; import java.io.IOException; import java.util.HashMap; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.Put; import org.apac ...

2013-09-18 09:34
浏览 1399
评论(0)
分类:互联网

Hbase基本API的使用

Hadoop HBase HBase API

package test; import java.util.Map; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.HTableDescriptor; import org.apache.hadoop.hbase.client.HBaseAdmin; import org ...

2013-09-18 09:33
浏览 1523
评论(0)
分类:互联网

HBase的逻辑模型和物理模型

hadoop hbase 逻辑模型物理模型

HBase的逻辑模型和物理模型逻辑模型行键是数据行在表中的唯一标识，并作为检索记录的主键。在HBase中访问表的方式有三种：1.通过单个行键访问2.给定行键额范围访问3.全表扫描表中的列定义为：<family>:<qualifier>(<列族>:<限定符>)HBase提供了两种数据版本的回收方式:1.对每个数据单元只存储指定个数的最新单元2.保存最近一段时间内的版本元素由行键列时间戳唯一确定，元素中的数据以字节码的形式存储，没有类型之分物理模型

2013-09-18 09:30
浏览 2586
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

博客转移至 http://sunhs.me

Hive网络接口的使用

Hive的三种启动方式及用途

Hive的优化

Hive的运行时配置

Reducer数目最佳值的设定

用户定制Partitioner

mapreduce中用户自定义数据类型

没有Map和Reduce的Mapreduce（LazyMapReduce）

HBase的安装

Hbase的基本shell操作

mapreduce对于关系数据库的连接和访问

Mapreduce构建Hbase索引

Hbase基本API的使用

HBase的逻辑模型和物理模型

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>