- 浏览: 554048 次
- 性别:
- 来自: 西安
-
博客专栏
-
-
Hive入门
浏览量:44772
最新评论
-
freeluotao:
public void readFields(D ...
MapReduce直接连接Mysql获取数据 -
passionke:
在spark-sql中通过insert插入数据到HBase表时 ...
SparkSQL读取HBase数据 -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十六-Hive的WEB页面接口-HWI -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
文章列表
1. 复制3个文件:/etc/passwd,/etc/group,/etc/shadow
2. 为各个用户创建home目录
3.复制用户home目录下的.bashrc .bash_profile
用hbase的rest服务给业务方提供web访问接口,
经常会遇到服务不可用的情况,查看日志,发现以下错误:
2012-11-08 06:10:37,447 INFO org.apache.zookeeper.ClientCnxn: Opening socket connection to server hd0149-sw36.dc.sh-wgq.sdo.com/10.133.10.191:
2181
2012-11-08 06:10:37,447 WARN org.mortbay.log: /fh_spread_mes/ZTVzZmJ1cHNiYW90dWk=/: org.apa ...
cat
使用方法:hadoop fs -cat URI [URI …]
将路 径指定文件的内容输出到stdout。
示 例:
hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2
hadoop fs -cat file:///file3 /user/hadoop/file4
返回值:
成功返回0,失败返回-1。
chgrp
使用方法:hadoop fs -chgrp [-R] GROUP URI [URI …]
改变文件所属的组。使用-R将使改变在目录结构下递归进行。
命令的使用者 ...
有很多初入商业智能的同学可能不明白数据分析和数据挖掘的区别在哪里,觉得他们做的事情都差不多,我亦如此!
经过这几年工作中和他们的合作和学习,大概清楚了他们的区别,今天看到一篇文章,系统的解释了下这两者的区别:
数据分析,是对数据的一种操作手段。或者算法。目标是针对先验的约束,对数据进行整理,筛选,加工。由此得到信息。
数据挖掘,是对数据分析手段后的信息,进行价值化的分析。
而数据分析和数据挖掘,又是甚至是递归的。就是数据分析的结果是信息,这些信息作为数据,由去数据挖掘。而数据挖掘,又使用了数据分析的手段。周而复始。。
这里再细化说一下。数据分析和数据挖掘的最大区 ...
我的博客:
http://superlxw1234.iteye.com/admin/blogs/1703546
被爬的:
http://www.uplook.cn/index-Index-show-view166417.html
速度很快啊。。
用过oracle rac的应该都知道parallel的用途。
并行执行的确可以大的加快任务的执行速率,但不会减少其占用的资源。
在hive中也有并行执行的选项。
set hive.exec.parallel=true; //打开任务并行执行
set hive.exec.parallel.thread.n ...
如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。
比如:
hive> select 1 from dual;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201208151631_2040444, Tracking URL = http://jt.dc.sh-wgq.sdo.com:50030/j ...
原SQL:
insert overwrite table in_yuncheng_tbshelf partition (pt)
select userid, bookid, bookname, createts, rpid, addts, updatets, isdel, rcid, category_type, wapbookmarks, addmarkts, readingchapterid, readpercentage, readingts,
substring(addts,0,10) as pt from search_product.yuncheng_tbshelf ...
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。
大多数据仓库的数据架构可以概括为:
数据源-->ODS(操作型数据存储)-->DW-->DM(data mart)
ETL贯穿其各个环节。
一、数据抽取:
可以理解为是把源数据的数据抽取到ODS或者DW中。
1. 源数据类型:
关系型数据库,如Oracle,Mysql,Sqlserver等;
文本文件,如用户浏览网站产生的日志文件,业务系统以文件形式提供的数据等; ...
KeyRSA.java,生成密钥对,上传到hdfs
add jar hdfs://nn.dc.sh-wgq.sdo.com/group/p_sdo_data/udf/RSA.jar;
CREATE TEMPORARY FUNCTION rsa as 'com.sdo.hive.udf.RSAUdf';
select rsa('13855667788','encode') from lxw_t1 limit 1;
67C267F193E498D3C227479FEC571787EA4141869C56CF024C462572448FCF3EC66A1AF3F5EB2F2FD ...
用java中匹配中文的正则即可:
name rlike '^[\\u4e00-\\u9fa5]+$'
https://github.com/hbutani/SQLWindowing
经过测试,我使用的hadoop版本: hadoop-0.20.2-cdh3u3
hive版本:0.7.0,报错:
./hive --service windowingCli
Hive history file=/tmp/p_sdo_data_etl/hive_job_log_p_sdo_data_etl_201207191020_1015292447.txt
Exception in thread "main" groovy.lang.MissingMethodExce ...
依赖hadoop,hive相关包,
源码见附件。
add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar;
CREATE TEMPORARY FUNCTION encodebase64 AS 'com.sdo.hive.udf.EncodeBase64';
CREATE TEMPORARY FUNCTION decodebase64 AS 'com.sdo.hive.udf.DecodeBase64';
hive> select encodebase64('liuxiaowen ...
使用kerberos的hadoop集群,如果在kerberos配置文件正确,但访问hdfs报错:
WARN ipc.Client: Exception encountered while connecting to the server : javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)]
Bad connectio ...
Jobtracker重启Job recovery过程分析
1. Job Recovery的有关配置项
配置项
默认值
含义
mapred.jobtracker.restart.recover
false
true时JT重启之前运行的job可以在jobtracker restart之后恢复,false则需要重新运行 ...