`
longzhun
  • 浏览: 376157 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。    

Hive创建表和分区

    博客分类:
  • hive
转载自 http://www.yanbit.com/?p=394 Hive创建表和分区 2013年10月17日YanBit   CREATE EXTERNAL TABLE IF NOT EXISTS data_zh( ROWKEY STRING, STATION INT, YEAR IN
启用lzo压缩对于小规模集群还是很有用的,压缩比率大概能达到原始日志大小的1/3。同时解压缩速度也比较快,Hadoop原生是支持gzip和bzip2压缩的,这两种压缩虽然压缩比率比lzo更大,但是在做map reduce解压缩的时候,慢的不能忍,所以通常不会用gzip或者bzip2。相同数据量,gzip的mr速度大概是lzo的1.5-2倍,而bzip2是lzo的3-4倍。 不过lzo不比gzip和bzip2是linux系统原生支持的,需要下载软件包并安装。这里至少涉及三个软件包。lzo,lzop和hadoop-gpl-packaging。我们是使用hadoop-gpl-packaging,或 ...
如何将路径“永久"添加到sys.path? sys.path是python的搜索模块的路径集,是一个list   复制代码代码如下: ['', 'C:\\WINDOWS\\system32\\python26.zip', 'C:\\Python26\\DLLs', 'C:\\Python26\ \lib', 'C:\\Python26\\lib\\plat-win', 'C:\\Python26\\lib\\lib-tk', 'C:\\Python26 ', 'C:\\Python26\\lib\\site-packages', 'C:\\Python26\\lib\\s ...
sys模块包含了与python解释器和它的环境有关的函数,这个你可以通过dir(sys)来查看他里面的方法和成员属性。 下面的两个方法可以将模块路径加到当前模块扫描的路径里: sys.path.append('你的模块的名称')。 sys.path.insert(0,'模块的名称') 永久添加路径到sys.path中,方式有三,如下: 1)将写好的py文件放到 /usr/lib/python2.6/site
一、摘要 由于硬件问题、系统资源紧缺或者程序本身的BUG,Java服务在线上不可避免地会出现一些“系统性”故障,比如:服务性能明显下降、部分(或所有)接口超时或卡死等。其中部分故障隐藏颇深,对运维和开发造成长期困扰。笔者根据自己的学习和实践,总结出一套行之有效的“逐步排除”的方法,来快速定位Java服务线上“系统性”故障。 二、导言
IntelliJ IDEA 问题解决:1.乱码,主要是快捷键的字样显示乱码 中文字体显示乱码? 2.菜单项等的字体太小,怎么能设置下?    ------------------------------------------------ 实用快捷键: Ctrl+/ 或 Ctrl+Shift+/ 注释(// 或者/*...*/ )Ctrl+D 复制行Ctrl+X 删除行快速修复 alt+enter (modify/cast)代码提示 alt+/ctr+G 定位某一行Shift+F6 重构-重命名Ctrl+R 替换文本Ctrl+F
在工作时经常要写System.out.println(); 这个在idea里已经预设好了,直接输入 sout 然后按tab键就可以了,那么我们如何增加一些自定义的快捷操作。   sout=System.out.println();   soutp=System.out.println("");   soutv=System.out.println("变量名 = " + 变量);   soutm=System.out.println("当前类名.当前方法");   psvm=public static void ma ...
IntelliJ IDEA 14 下载地址: IntelliJ IDEA 14 下载  分享几个license: (1) key:IDEA value:61156-YRN2M-5MNCN-NZ8D2-7B4EW-U12L4   (2) key:huangweivalue:97493-G3A41-0SO24-W57LI-Y2UGI-JGTU2   (3) key:hkl520
问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表   1.hive模糊搜索表   show tables like '*name*';

hadoop集群搭建

第一步:准备2台虚拟机或者物理机(我准备的机器IP:192.168.195.159,192.168.202.145(centos)) 第二步:配置hosts文件 vi /etc/hosts 加入 192.168.195.159 master   192.168.202.145 slave 2台机器都要加入这2行 第三步:建立hadoop运行帐号 /usr ...

跳表SkipList

<1>. 聊一聊作者的其人其事  跳表是由William Pugh发明。他在 Communications of the ACM June 1990, 33(6) 668-676 发表了Skip lists: a probabilistic alternative to balanced trees,在该论文中详细解释了跳表的数据结构和插入删除操作。 William Pugh同时还是FindBug(没有使用过,这是一款java的静态代码分析工具,直接对java 的字节码进行分析,能够找出java字节码中潜在很多错误。)作者之一。现在是University of Maryla ...
memcached是一款非常优秀的分布式缓存工具,有效提升了按主键检索数据的性能问题。而simple-spring-memcached组件通过与spring框架整合,让memcached的调用变得更加简单。simple-spring-memcached本质上是采用了AOP的方式来实现缓存的调用和管理,其核心组件声明了一些Advice,当遇到相应的切入点时,会执行这些Advice来对memcached加以管理。切入点是通过标签的方式来进行声明的,在项目开发时,通常在DAO的方法上加以相应的标签描述,来表示组件对该方法的拦截组件所提供的切入点主要包括以下几种:ReadThroughSingleCa ...
Spring3.0中加入了对缓存的注解支持,即当你使用ehcache时可以使用例如@cachable等注解,这十分方便,省去了80%的缓存代码量(我自己感觉,因为自己操作缓存挺麻烦的)。         但是却遇到了一个问题,我的项目到时候需要tomcat集群部署,前端用F5做负载均衡,这样也就涉及到了缓存同步问题,虽然ehcache也有standalone server 、terracotta等技术来实现同步,但是至少我没能成功完成,总是有各种问题。         而且还有一个问题就是当集群部署的时候Java 中 synchronized 关键字失效,这就要求必须自己控制“锁”,以及锁 ...
Tomcat 7 的JDBC连接池实现类为org.apache.tomcat.jdbc.pool,作为替换commons-dbcp的方案。 替换commons-dbcp的原因如下: commons-dbcp是单线程的,为了线程安全,就要琐住整个连接池,查询验证阶段也要琐住整个连接池。 commons-dbcp速度慢 ...
Global site tag (gtag.js) - Google Analytics