`
文章列表
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似。   关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。   首先我要讲讲hive的数据类型。   Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。   原子数据类型包括数值型、布尔型和字符串类型,具体如 ...

hive介绍

    博客分类:
  • hive
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性:   1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce ...
Zookeeper是hadoop的一个子项目,虽然源自hadoop,但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈zookeeper,本文不谈如何使用zookeeper,而是zookeeper到底有哪些实际的运用,哪些类型的应用能发挥zookee ...
  转载:http://wnight88.blog.51cto.com/512204/163189 一、JSP EL的运算符 类型

版本管理

总版本号.分支版本号.小版本号-里程碑版本 0.0.1-SNAPSHOT 总版本号的变动一般表示框架的变动 分支版本号:一般表示增加些功能 小版本号:在分支版本上面进行bug修复   SNAPSHOT  -- >alpha  --> beta --> release -->GA 开发版本-->内部测试版本 -->外部公正版本-->发布版本-->稳定版本 产品

编译 hadoop 2.2.0

Hadoop 2.2 是 Hadoop 2 即yarn的第一个稳定版。并且解决单点问题。 maven安装 [andy@s41 ~]$ wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.1.1/binaries/apache-maven-3.1.1-bin.tar.gz 解压后放到/usr/local目录下。   增加国内maven 开源中国镜像 [andy@s41 ~]$ sudo vi /usr/local/apache-maven-3.1.1/conf/settings.xml <mirror> ...
route命令用于显示和操作IP路由表。要实现两个不同的子网之间的通信,需要一台连接两个网络的路由器,或者同时位于两个网络的网关来实现。在Linux系统中,设置路由通常是 为了解决以下问题:该Linux系统在一个局域网中,局域网中有一个网关,能够让机器访问Internet,那么就需要将这台机器的IP地址设置为 Linux机器的默认路由。要注意的是,直接在命令行下执行route命令来添加路由,不会永久保存,当网卡重启或者机器重启之后,该路由就失效了;要想永久保存,有如下方法:   1.在/etc/rc.local里添加2.在/etc/sysconfig/network里添加到末尾3./et ...

awk 从shell传参数

-v arg=value 方式传入。 [hadoop@hs12 sh]$ cat a2|1|文字|2|2|文字|2|3|文字| [hadoop@hs12 sh]$ awk -F “|” -v b=2 ‘{ if($2==b) { print $0;} }’ a2|2|文字| 参考 http://blog.csdn.net/sosodream/article/details/5746315
假如设备链接层次分3层,第一层交换机d1下面连多个交换机rk1,rk2,rk3,rk4,…. 每个交换机对应一个机架。 d1(rk1(hs11,hs12,…),rk2(hs21,hs22,…), rk3(hs31,hs32,…),rk4(hs41,hs42,…),…) 可以用程序或脚本完成由host到设备的映射。比如,用python,生成一个topology.py: 然后在core-site.xml中配置<property><name>topology.script.file.name</name><value>/home/hadoop/ ...
#!/usr/bin/env python # file name : backup.py # author: zhouhh # blog: http://blog.csdn.net/ablo_zhou # Email: ablozhou@gmail.com # Date : 2008.5.21 # back up files and dir to a time format tgz file. # you could add this script to crontab # import os import time source=['/home/z ...
在上一篇文章《从hive将数据导出到mysql》中,虽然通过hive中转,将hbase的数据成功导出到了mysql中,但是我们遇到了中文乱码问题。 一、mysql中的编码 mysql> show variables like 'collation_%'; +----------------------+-------------------+ | Variable_name | Value | +----------------------+-------------------+ | collation_connection | latin1_swedish_ci | | ...
在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysql则不是直接支持,而是间接支持。要么将HBase导出到HDFS平面文件,要么将其导出到Hive中,再导出到mysql。本篇讲从hive中导出到mysql。从hive将数据导出到mysql 一、创建mysql表   mysql> create table award (rowkey varchar(255), productid int, matchid varchar(255), ran ...
sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java 程序来实现sqoop把数据从HDFS写入到MYSQL。在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想:1、在MYSQL中创建一个参数表A,用来记录要传输的表的表名B和字段。2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。3、从MYSQL的参数表A中,读取要传输的表B。把这些字段拼凑成一个insert语句,例如,拼凑为insert into b(column1,column2..) values(value1,value2.. ...

装饰模式

概述 23种设计模式之一,英文叫DecoratorPattern,中文也叫装饰模式、修饰模式。装饰模式是在不改变类文件和不使用继承的情况下,运行期动态扩展一个对象的功能。原理是:增加一个修饰类包裹原来的类,包裹的方式一般是通过在将原来的对象作为修饰类的构造函数的参数。装饰类实现新的功能,但是,在不需要用到新功能的地方,它可以直接调用原来的类中的方法。修饰类必须和原来的类有相同的接口(没有接口可以直接继承自原来的类)。修饰模式是类继承的另外一种选择。类继承在编译时候增加行为,而装饰模式是在运行时增加行为。 UML   实现 Component.java,接口。 pub ...

hive日常积累优化技巧

    博客分类:
  • hive
 
一、join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。案例:SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)  在一个map ...
Global site tag (gtag.js) - Google Analytics