- 浏览: 1267420 次
- 性别:
- 来自: 广州
最新评论
-
jackhong1108:
你可能只知道Oracle有like,不知道Oracle有其他的 ...
Hive使用regexp,RLIKE需要使用转义字符 -
pktangshao:
a_bun 写道iijjll 写道使用wmsys.wm_con ...
Oracle 列转行函数 Listagg() -
nayouzhenai:
Spring读取properties文件作为环境变量 -
a_bun:
iijjll 写道使用wmsys.wm_concat()函数也 ...
Oracle 列转行函数 Listagg() -
Horse_Chasing:
鼓励鼓励鼓励鼓励鼓励鼓励鼓励鼓励鼓励鼓励
广州面试小结
文章列表
Hive的变量前面有一个命名空间,包括三个hiveconf,system,env,还有一个hivevar
1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。2. system的命名空间是系统的变量,包括JVM的运行环境。3. env的命名空间,是指环境变量,包括Shell环境下的变量信息,如HADOOP_HOME之类的
普通的变量可以使用 --define key=value 或者 --hivevar key=value来声明,这都代表是hivevar,的变量。如:$ hive --define key=value
简写 hive ...
我们用Hive去连接一个Hbase款表,大概有150多个字段。
因此,就报了异常:
FAILED: Error in metadata: MetaException(message:javax.jdo.JDODataStoreException: Put request failed : INSERT INTO `SERDE_PARAMS` (`PARAM_VALUE`,`SERDE_ID`,`PARAM_KEY`) VALUES (?,?,?)
NestedThrowables:
org.datanucleus.store.mapped.exceptions.MappedDatast ...
oracle share pool详解:http://blog.csdn.net/tianlesoftware/article/details/6560956
参考自:百度百科
共享池(Shared Pool)共享池是SGA保留的区,用于存储如SQL、PL/SQL存储过程及包、数据字典、锁、字符集信息、安全属性等。
共享池包含有:1) 库高速缓存(Library Cache);2) 字典高速缓冲区(Dictionary Cache )。
库高速缓存(Library Cache)该区包含有:
1) 共享SQL区(Shared Pool Area);
2) 私有SQL区(P ...
做地图可视化工具确实难找,这里有个就是用JVetorMap做的,一个基于jQuery做的地图包。
特此收藏一下。
在通过Oozie调用sqoop action从DB导入数据到hive表的时候,发现了异常。
28167 [Thread-30] INFO org.apache.sqoop.hive.HiveImport - FAILED: SemanticException [Error 10028]: Line 2:17 Path is not legal ''hdfs://cnsz141195.app.paic.com.cn:9000/user/hduser0401/table_name'': Move from: hdfs ...
转自:http://blog.csdn.net/chenyi8888/article/details/8236726
做应用开发的也要帮助他们找BUG,真是头疼。遇到如下异常,度娘给出的答案如下:
过多的动态分区会导致job出现以下情况:
org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/hi ...
使用Hive做数据清洗,经常需要使用正则表达式。
比较讨厌的是,正则表达式匹配失败的时候,hive完全不会报错。
原来的写法
SELECT * from ahhs_product_info where product_name NOT RLIKE '([\u4e00-\u9fa5])+' ;
在hive里面的写法
SELECT * fro ...
常用的对称加密算法DES算法。
在Java中有一个工厂类里面存放着各种常用的加密算法,我们通过实例化DES算法来实现DES加密。
Java代码示例:
import java.security.SecureRandom;
import javax.crypto.Cipher;
import javax.crypto.SecretKey;
import javax.crypto.SecretKeyFactory;
import javax.crypto.spec.DESKeySpec;
public class DEStest {
public byte[] ...
在了解什么是“第一方Cookies”、“第三方Cookies”之前,我们应该先了解一下,什么叫Cookie?
什么叫Cookie?
Cookie是网站存放在客户端的一小段数据。一般的,网站为了提升用户体验,在客户的客户端中保存用户的历史信息,以备用户再次访问时网站能提供 更方便,更有针对性的服务。比如,网站可以记住你的登录状态,只要登录一次下次访问就不用在登录;购物网能记住你浏览过的产品,保留你购物车中的物品。这些都有Cookie的功劳。
Cookie是如何工作的?
比如,我们访问一个网站,来到了登录的页面。页面需要我们输入用户名和密码,同时下面有一个选项,叫“保留我的登录状态” ...
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true
hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。 134217728L
hive.exec.mode.local.auto.tasks.max 如果 hive.exec.mode.local.auto 为 true,当 Hive Tasks(Hadoop Jobs)小于此阈值 ...
正则表达式之中,支持某匹配对象的前面或者后面满足条件的匹配模式。这种匹配模式叫做零宽断言。
零宽断言的格式类似于(?exp)exp
(?<=ing)ing表示匹配对象前面是ing的,ing对象如:singingdancing能匹配第一个
kiss(?=ing)表示匹配对象后面是ing的,内容是kiss对象的如:kissingkissed只能匹配第一个
abc(?!ed)表示匹配对象后面不是ed,内容是abc的对象如:abcedabcabcjj只能匹配第二,第三个
(?<!abc)jj表示匹配对象前面不是abc的,内容是jj的对象如:kkkj ...
我有一串Tag,需要用来匹配字符串。
用index的方式很难Debug,所以用动态生成正则表达式的方式来进行。
reg = "WT.tz"+"=\w+(&|\s|\?)"
print regExpStr
p = re.compile(r''+reg+'')
m = p.search('WT.pa_tnuser=0&WT.mle=UTF-8&WT.tz=8&WT.bh=23&WT.ul=zh-cn&WT.cd=32&WT.sr=1280x960&')
print m. ...
开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。
设置如下参数配置动态分区的使用环境:hive.exec.max.dynamic.partitions.pernode=100默认值:100描述:each mapper or reducer可以创建的最大动态分区数hive.exec.max.dynamic.part ...
背景
假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。
这个就是典型在分组取Top N的需求。
解决思路
对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它的作用是按指定的列进行分组生成行序列。在ROW_NUMBER(a,b) 时,若两条记录的a,b列相同,则行序列+1,否则重新计数。
只要返回row_number()返回值小于100的的成绩记录,就可以返回每个单科成绩 ...