- 浏览: 294004 次
- 性别:
- 来自: 杭州
最新评论
-
onlyamoment:
请问为什么要限制不合并文件呢?事实上,用动态分区写表时候容易出 ...
HIVE动态分区参数配置 -
alexss1988:
请问楼主,RCFILE由于列式存储方式,数据加载时性能消耗较大 ...
HIVE文件存储格式的测试比较 -
空谷悠悠:
jersey文档中提到:Client instances ar ...
自整理手册Jersey Client API -
bottle1:
我也遇到FileNotFoundException这个问题,发 ...
Hadoop 中使用DistributedCache遇到的问题 -
yongqi:
hi hugh.wangp: 请教您一个问题,我现在也在被 ...
Hadoop 中使用DistributedCache遇到的问题
文章列表
【头脑风暴】产品流程图
- 博客分类:
- 头脑风暴
很久以前的博客,回归到官方博客来,欢迎大家拍砖
我的感觉:
作为天天和数据打交道的数据仓库工程师,接触数据多了,接触数据产品多了,多少对产品有了自己的小小体会,看到这个流程图挺有感触的。(自我感觉有 ...
在互联网行业,文本数据远大于结构化的数据,海量的数据的文本处理也是迫在眉睫。
字符串的字符操作>>> s='hello World! Everyone! This Is My First String!'>>> s #打印出s的内容'hello World! Everyone! This Is My First String!'>>> s.lower() #小写字符串s'hello world! everyone! this is my first string!'>>> s.upper() #大 ...
文件字符流的输入输出对应的函数不太多,大概如下几个函数能满足大部分的需求
open()
close()
read()
readline()
readlines()
HIVE提供了很多函数,但这些函数只能满足一般的需求,针对复杂的业务分析,需要自己开发适合业务需求的函数。如何开发HIVE的UDF/UDAF/UDTF,请参看如下博客介绍的自定义函数的模板:
http://hugh-wangp.iteye.com/blog/1472371
如何 ...
刚开始玩HIVE外部表可能会遇到的小陷阱。
只要我们牢记外部表也是一种表就可以,普通表有分区,外部表也是有分区的。所以如果是基于分区表创建的外部表一定要对外部表执行ALTER TABLE table_name ADD PARTITION。否则是根本访问不到数据的。
例子应该会更直观:
原始的表:
hive> desc shaka_test_external;
OK
id bigint
gender string(分区字段)
记录:
hive> select * from shaka_test_externa ...
查看目录空间使用情况
命令:hadoop fs -count [-q] <paths>
统计出目录数、文件数及指定路径下文件的大小,输出列为:
DIR_COUNT, FILE_COUNT, CONTENT_SIZE FILE_NAME.
带上-q选项后的输出列为:
QUOTA, REMAINING_QUOTA, SPACE_QUOTA, REMAINING_SPACE_QUOTA, DIR_COUNT, FILE_COUNT, CONTENT_SIZE, FILE_NAME.
查看指定目录下各子目录包含的目录数和文件数
awk 'BE ...
HIVE元数据表数据字典:
表名
说明
BUCKETING_COLS
Hive表CLUSTERED BY字段信息(字段名,字段序号)
HADOOP篇
HADOOP安装
1.tar -zvxf hadoop-0.19.2.tar.gz
2.HADOOP的安装路径添加到环境文件/etc/profile中:
export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2
export PATH=$HADOOP_HOME/bin:$PATH
HADOOP配置
1.在$HADOOP/conf/hadoop-env.sh中配置JAVA环境
export JAVA_HOME=/home/hadoop/setup/jdk1.7.0_04
2.在$HADOO ...
在HADOOP里,如果一个任务运行比预期的慢,就会尽快检测和启动另一个相同的任务作为备份来执行相同的工作,虽然它会降低执行慢的任务执行失败带来的损失,但也会消耗更多的资源,执行重复的工作。有利有弊,可以选择使用。
自己写MR代码时就遇到了推测执行会产生错误的情况。
当我使用MultipleOutputFormat来把不同数据写到不同目录里时就报错了,错误信息为:
org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: faile ...
功能需求:
URL的字符串匹配,但又不能包含指定的字符串
URL为我的ITEYE空间:http://hugh-wangp.iteye.com/
我想统计我ITEYE空间的流量,但是又不想知道微博(weibo)和收藏(link)的流量
所有我要在匹配:http://hugh-wangp.iteye.com的同时,URL里又不能有weibo和link字符串
功能实现:
//待匹配的正则表达式
String reg= "^http://hugh-wangp\\.iteye\\.com/(?!.*((weibo)|(link))).*$";
...
1.数据规模
这个是最基本的要求,数据规模不到一定级别,你就不好意思说你是大数据。但数据规模多大才算大,我给不出来一个通用的数字去界定大数据。虽然很多公司的数据量都会上P,但这个不能作为大数据的标准。自 ...
看过《如何阅读一本书》后惊觉自己潜移默化的阅读习惯完全可以用这本书所描述的规则所概括。虽然阅读习惯是有一定的规则,但其实以前从来也没有去关注和总结自己的阅读习惯和风格,或者说是适合自己的阅读模式。借此 ...
文件数目过多,增加namenode的压力,hdfs的压力,同时需要更多map进程,影响处理效率。
可以通过配置如下几个参数,合并Map和Reduce的结果文件,消除这些影响。
控制每个任务合并小文件后的文件大小(默认256000000):hive.merge.size.per.task
告诉hadoop什么样的文件属于小文件(默认16000000):hive.merge.smallfiles.avgsize
是否合并Map的输出文件(默认true):hive.merge.mapfiles
是否合并Reduce的输出文件(默认false):hive.merge.mapre ...
1.记录数对比
在两种情况下必须要做如此的验证:
a. 数据迁移
这个场景主要是DW环境从一种迁移到另一种,比如RAC迁到HIVE之类的,记录数对比是首要的,迁移的数据量都不对,具体的数据内容对不对就不用考虑了。 ...
自己写代码时候的利用到的模板
UDF步骤:
1.必须继承org.apache.hadoop.hive.ql.exec.UDF
2.必须实现evaluate函数,evaluate函数支持重载
package com.alibaba.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF
public class helloword extends UDF{
public String evaluate(){
return "hello world!" ...