- 浏览: 346196 次
- 性别:
- 来自: 上海
最新评论
-
tpxcer:
不开启时可以的,而且开启以后各种坑。。。。
hue beeswax权限管理 -
yangze:
博主请教一个问题,hue 控制hive表的权限怎么弄? 怎么联 ...
cloudera新增用户权限配置 -
linux91:
楼主你好,我用CM配置LDAP用户组映射,进入impala时, ...
sentry配置 -
linux91:
版主:按你的步骤配置了,可是,执行 impala-shell ...
impala集成LDAP -
lookqlp:
super_a 写道你好!找不到表这个问题是如何解决的,可以描 ...
hcatalog读取hive数据并写入hive
文章列表
简述
订单常规查询用到的字段可能有:店铺id、订单创建时间(不变量)、订单id、订单状态等等。
如下设计适用场景:a.dp_id+created段查询(+状态或者其他filter条件)
b.tid查询
表设计
分两张表:
1.用于常规查询表,rowkey:dp_id+created+tid cf:status:value cf:buyer_nick:value...。查询条件的必须输入项有:created开始时间和结束时间。可有可无项:cf(列簇)中的字段,用于filter过滤。该表属于长表,字段数不多,占存储不大。
...
代码地址https://github.com/qiulp/algorithms
(java实现)
已经实现的算法有:
最大子数组:
暴力解法O(n^2)
分治递归法O(n^2)
线性解法O(n)
矩阵相乘:
暴力解法O(n^3)
分治递归法O(n^3),实现了(m1,n)*(n,m2)相乘。
Strassens法O(lgn^7),实现了任意矩阵相乘。当n!=2^m时,采用补零方法。
待解决
install.packages("rJava")
trying URL 'http://cran.rstudio.com/src/contrib/rJava_0.9-4.tar.gz'
Content type 'application/x-gzip' length 498108 bytes (486 Kb)
opened URL
==================================================
downloaded 486 Kb
* installing *source* package ‘rJava’ ...
** pac ...
编译hadoop-2.2.0
下载hadoop-2.2.0-src包,解压
安装好maven2
执行
mvn clean install -DskipTests
运行报错:
[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.2.0:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: protoc version is 'libprotoc 2.4.1', exp ...
解压hadoop-2.2.0.tar.gz
目录说明:
drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:37 bin/ ......hadoop命令及yarn命令
drwxr-xr-x 3 qiulp qiulp 4096 Oct 7 14:38 etc/ ......site xml配置文件
drwxr-xr-x 2 qiulp qiulp 4096 Oct 7 14:38 include/
drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:40 sbin/ ......启动命令
drwxr-xr ...
废话不多说,直接步骤
安装
准备:
oozie-3.3.2,oozie-4.0.0在执行oozie-setup.sh时失败,所以选取3.3.2版本
mysql
hadoop-1.0.3
apache-6
mavn3(必须是3或者以上版本)
ext-2.2.zip拷贝至oozie-3.3.2目录下
创建 oozie 组和用户
/usr/sbin/groupadd oozie
/usr/sbin/useradd oozie -g oozie
环境变量:
export JAVA_HOME=/usr/local/jrockit-jdk1.6.0_29
export JRE_HOME=$JA ...
因为update openoffice,或者误删除了openoffice,导致升级出错:
Can't open /usr/share/applications/openoffice4-base.desktop: No such file or directory at -e line 1, <> line 3489.
Can't open /usr/share/applications/openoffice4-calc.desktop: No such file or directory at -e line 1, <> line 3489.
Can't open ...
环境
maven2
tomcat7
需求
将本地web项目发布至10.200.187.24指定目录下
pom.xml配置
<build>
<plugins>
<plugin>
<groupId>org.apache.tomcat.maven</groupId>
<artifactId>tomcat7-maven-plugin</artifactId>
...
pom.xml中加入:
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>2.0.2</version>
<configuration>
<source>1.6 ...
前言
近半年本人主要在倒腾数据,遇到海量数据去重的难题,曾经尝试过各种hivesql,然而随着数据量逐渐增大,处理耗时也越来越长,各种方案一一破产。2012年11月份提过使用HBase唯一主键的方案,随即做了相关预研(参看hive&hbase解决方案测评)。该方案由于HBase转化成hive表性能问题而搁浅。但在测评报告最后的总结中提到:或许我们可以选择数据“冷热”、以及部分字段切表来优化。
2013年3月,我们在业务上做了调整,通过部分字段来区分数据的“冷热”,从此希望的烟火重新燃起……
表设计
为区分数据的“冷热”,我们采用分表方式,即冷数据A和热数据B存储于HBase的不同表, ...
好久没写mr了,今天写了个在eclipse上运行很顺畅,但是使用hadoop jar命令方式时一直报错:
13/03/07 14:44:34 INFO mapred.JobClient: Task Id : attempt_201303031058_0328_m_000007_0, Status : FAILED
java.lang.RuntimeException: java.lang.ClassNotFoundException: com.test.HBaseToFile$TradeMap
at org.apache.hadoop.conf.Configuration.getCla ...
top -H -p 进程号:查看进程下所有线程运行情况
iostat 查看io情况
nmon查看cpu memory io情况,比top实用
cd /proc/进程号 可查看到进程执行目录
free -m查看内存情况
安装mat插件:
[url]http://download.eclipse.org/mat/1.2/update-site/
[/url]
使用java cmd命令dumpjava进程信息文件例如:
jrcmd 11569 hprofdump filename=/home/qiulp/a.hprof
11569进程号。
使用安装好mat插件eclipse打开该文件即可查看内存情况。
记录一下,mat还支持sql需要继续学习。
大学时候的知识忘的还真差不多了。。。
R语言:
cor函数计算的是列与列间的相关系数,得到的举证C(i,j)是第i列与第j列相关系数。
相关系数的计算公式参考:
http://baike.baidu.com/view/172091.htm
cov函数计算的是列与列的协方差,计算公式参考:
http://www.cnblogs.com/liangzh/archive/2012/12/09/2807418.html
http://baike.baidu.com/view/121095.htm
个人理解:
方差:体现的是一组数据的波动情况,值越小波动越小。
协方差:两种不同数据的方差,体现两组数 ...
sp = subprocess.Popen(c_args, stderr=subprocess.PIPE)
sp.wait()
out = sp.stderr.readlines()
self.sl.dowrite(threading.currentThread().getName() + "_" + table_name, ''.join(out))
sp = subprocess.Popen(c_args, stderr=subprocess.PIPE)
out = sp.stderr.readlines()
sp.wait()
self.sl. ...