hive从查询中获取数据插入到表或动态分区

博客分类：

python

Hive的insert语句能够从查询语句中获取数据，并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees（雇员信息全量表），所属国家cnty和所属州st是该表的两个属性，我们做个试验将该表中的数据查询出来插入到另一个表employees中。

2015-09-06 09:20
浏览 1020
评论(0)
分类:编程语言

Hive创建表和分区

博客分类：

hive

转载自 http://www.yanbit.com/?p=394 Hive创建表和分区 2013年10月17日YanBit CREATE EXTERNAL TABLE IF NOT EXISTS data_zh( ROWKEY STRING, STATION INT, YEAR IN

2015-09-01 15:53
浏览 1129
评论(0)
分类:编程语言

启用lzo压缩对于小规模集群还是很有用的，压缩比率大概能达到原始日志大小的1/3。同时解压缩速度也比较快，Hadoop原生是支持gzip和bzip2压缩的，这两种压缩虽然压缩比率比lzo更大，但是在做map reduce解压缩的时候，慢的不能忍，所以通常不会用gzip或者bzip2。相同数据量，gzip的mr速度大概是lzo的1.5-2倍，而bzip2是lzo的3-4倍。不过lzo不比gzip和bzip2是linux系统原生支持的，需要下载软件包并安装。这里至少涉及三个软件包。lzo，lzop和hadoop-gpl-packaging。我们是使用hadoop-gpl-packaging，或 ...

2015-09-01 15:52
浏览 2139
评论(0)
分类:数据库

Python sys.path详细介绍

博客分类：

python

如何将路径“永久"添加到sys.path? sys.path是python的搜索模块的路径集，是一个list 复制代码代码如下: ['', 'C:\\WINDOWS\\system32\\python26.zip', 'C:\\Python26\\DLLs', 'C:\\Python26\ \lib', 'C:\\Python26\\lib\\plat-win', 'C:\\Python26\\lib\\lib-tk', 'C:\\Python26 ', 'C:\\Python26\\lib\\site-packages', 'C:\\Python26\\lib\\s ...

2015-09-01 15:50
浏览 801
评论(0)
分类:编程语言

python中sys.path使用

博客分类：

python

sys模块包含了与python解释器和它的环境有关的函数，这个你可以通过dir(sys)来查看他里面的方法和成员属性。下面的两个方法可以将模块路径加到当前模块扫描的路径里： sys.path.append('你的模块的名称')。 sys.path.insert(0,'模块的名称') 永久添加路径到sys.path中，方式有三，如下： 1）将写好的py文件放到 /usr/lib/python2.6/site

2015-09-01 15:41
浏览 1031
评论(0)
分类:编程语言

用“逐步排除”的方法定位Java服务线上“系统性”故障

博客分类：

互联网

一、摘要由于硬件问题、系统资源紧缺或者程序本身的BUG，Java服务在线上不可避免地会出现一些“系统性”故障，比如：服务性能明显下降、部分（或所有）接口超时或卡死等。其中部分故障隐藏颇深，对运维和开发造成长期困扰。笔者根据自己的学习和实践，总结出一套行之有效的“逐步排除”的方法，来快速定位Java服务线上“系统性”故障。二、导言

2015-08-27 19:12
浏览 748
评论(0)
分类:互联网

IntelliJ IDEA 快捷键和设置

博客分类：

IntelliJ

IntelliJ IDEA 问题解决：1.乱码，主要是快捷键的字样显示乱码中文字体显示乱码？ 2.菜单项等的字体太小，怎么能设置下? ------------------------------------------------ 实用快捷键: Ctrl+/ 或 Ctrl+Shift+/ 注释（// 或者/*...*/ ）Ctrl+D 复制行Ctrl+X 删除行快速修复 alt+enter (modify/cast)代码提示 alt+/ctr+G 定位某一行Shift+F6 重构-重命名Ctrl+R 替换文本Ctrl+F

2015-08-26 08:48
浏览 448
评论(0)
分类:开源软件

Intellij IDEA快速编写代码

博客分类：

IntelliJ

在工作时经常要写System.out.println(); 这个在idea里已经预设好了，直接输入 sout 然后按tab键就可以了，那么我们如何增加一些自定义的快捷操作。 sout=System.out.println(); soutp=System.out.println(""); soutv=System.out.println("变量名 = " + 变量); soutm=System.out.println("当前类名.当前方法"); psvm=public static void ma ...

2015-08-26 08:46
浏览 504
评论(0)
分类:开源软件

IntelliJ IDEA 14 注册码

博客分类：

IntelliJ

IntelliJ IDEA 14 下载地址: IntelliJ IDEA 14 下载分享几个license: (1) key:IDEA value:61156-YRN2M-5MNCN-NZ8D2-7B4EW-U12L4 (2) key:huangweivalue:97493-G3A41-0SO24-W57LI-Y2UGI-JGTU2 (3) key:hkl520

2015-08-26 08:25
浏览 614
评论(0)
分类:开源软件

hive表信息查询：查看表结构、表操作等

博客分类：

hive

问题导读：1.如何查看hive表结构？2.如何查看表结构信息？3.如何查看分区信息？4.哪个命令可以模糊搜索表 1.hive模糊搜索表 show tables like '*name*';

2015-08-24 09:40
浏览 690
评论(0)
分类:数据库

hadoop集群搭建

博客分类：

hadoop

第一步：准备2台虚拟机或者物理机（我准备的机器IP：192.168.195.159，192.168.202.145（centos））第二步：配置hosts文件 vi /etc/hosts 加入 192.168.195.159 master 192.168.202.145 slave 2台机器都要加入这2行第三步：建立hadoop运行帐号 /usr ...

2015-07-31 13:52
浏览 452
评论(0)
分类:互联网

跳表SkipList

博客分类：

数据结构

<1>. 聊一聊作者的其人其事跳表是由William Pugh发明。他在 Communications of the ACM June 1990, 33(6) 668-676 发表了Skip lists: a probabilistic alternative to balanced trees，在该论文中详细解释了跳表的数据结构和插入删除操作。 William Pugh同时还是FindBug（没有使用过，这是一款java的静态代码分析工具，直接对java 的字节码进行分析，能够找出java字节码中潜在很多错误。）作者之一。现在是University of Maryla ...

2015-07-29 18:10
浏览 369
评论(0)
分类:编程语言

simple-spring-memcached简介

博客分类：

互联网

memcached是一款非常优秀的分布式缓存工具，有效提升了按主键检索数据的性能问题。而simple-spring-memcached组件通过与spring框架整合，让memcached的调用变得更加简单。simple-spring-memcached本质上是采用了AOP的方式来实现缓存的调用和管理，其核心组件声明了一些Advice，当遇到相应的切入点时，会执行这些Advice来对memcached加以管理。切入点是通过标签的方式来进行声明的，在项目开发时，通常在DAO的方法上加以相应的标签描述，来表示组件对该方法的拦截组件所提供的切入点主要包括以下几种：ReadThroughSingleCa ...

2015-07-09 15:06
浏览 426
评论(0)
分类:互联网

利用Spring AOP处理自定义注解

博客分类：

spring

Spring3.0中加入了对缓存的注解支持，即当你使用ehcache时可以使用例如@cachable等注解，这十分方便，省去了80%的缓存代码量（我自己感觉，因为自己操作缓存挺麻烦的）。但是却遇到了一个问题，我的项目到时候需要tomcat集群部署，前端用F5做负载均衡，这样也就涉及到了缓存同步问题，虽然ehcache也有standalone server 、terracotta等技术来实现同步，但是至少我没能成功完成，总是有各种问题。而且还有一个问题就是当集群部署的时候Java 中 synchronized 关键字失效，这就要求必须自己控制“锁”，以及锁 ...

2015-07-08 16:09
浏览 3097
评论(0)
分类:互联网

Tomcat 7 的新JDBC连接池的使用说明

博客分类：

互联网

Tomcat 7 的JDBC连接池实现类为org.apache.tomcat.jdbc.pool，作为替换commons-dbcp的方案。替换commons-dbcp的原因如下： commons-dbcp是单线程的，为了线程安全，就要琐住整个连接池，查询验证阶段也要琐住整个连接池。 commons-dbcp速度慢� ...

2015-06-28 22:55
浏览 1329
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive从查询中获取数据插入到表或动态分区

Hive创建表和分区

hadoop，hive启用lzo压缩和创建lzo索引

Python sys.path详细介绍

python中sys.path使用

用“逐步排除”的方法定位Java服务线上“系统性”故障

IntelliJ IDEA 快捷键和设置

Intellij IDEA快速编写代码

IntelliJ IDEA 14 注册码

hive表信息查询：查看表结构、表操作等

hadoop集群搭建

跳表SkipList

simple-spring-memcached简介

利用Spring AOP处理自定义注解

Tomcat 7 的新JDBC连接池的使用说明

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>