本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
spark sql on hive笔记一
Spark sql on Hive非常方便,通过共享读取hive的元数据,我们可以直接使用spark sql访问hive的库和表,做更快的OLAP的分析。
spark 如果想直接能集成sql,最好自己编译下源码:
切换scala的版本为新版本
dev/change-scala-version.sh 2.11
编译支持hive
mvn -Pyarn -Phive -Phive-thriftser ...
java,mysql,hadoop,cdh,hive,spark,ntp,zookeeper,kafka,storm,redis,flume,git 安装详解
顶部
----------------------------------------------------------------------------------------------------------------------------------
0.关闭防火墙
1.修改hosts
2.检查每台机器的 hostname
3.安装jdk
4.网络、h ...
hive udf 使用示例
在使用过程中,在执行sql的过程中需要将partition按照一定的规则动态分区:
import org.apache.hadoop.hive.ql.exec.UDF;
public class SharedRouter extends UDF {
private static SolrCloudPainRouter cloudPainRouter;
public String ...
Hive2.1.0集成Tez
#### Tez是什么?
Tez是Hontonworks开源的支持DAG作业的计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序
#### 如何编译
Tez最新的版本是0.8.4,本文就记录下Tez的编译过程,之前的Tez版本都是源码包,最新的版本虽然提供了编 ...
Hive学习系列(二)Hive的查询流程详解
此文为翻译的文档,英文连接为
https://cwiki.apache.org/confluence/display/Hive/Design#Design-HiveArchitecture
Hive 查询流程图如下
图中可以看出查询主要组件包含
UI(user interface) –用户提交查询或者其他操作,现在标准UI有CLI(command line interface ...
Apache Hive2.1.0安装笔记
Hive2.x已经足够稳定了,前面也安装过hive0.x和Hive1.x的版本,今天我们来看下hive2.x如何安装使用。
环境:
centos7.1
Hadoop2.7.3
JDK8
Hive2.1.0
1,首先需要下载hive最新的稳定版本的包,并保证的你Hadoop集群已经是能够正常运行的
http://ftp.kddilabs.jp/infosystems/apache/hi ...
Hive学习系列(一)什么是Hive及Hive的架构
最近一直在忙面试的事情,面试过程中碰到几家公司都问到了Hive,但是由于最近三年一直在忙海外数据仓库的事情,对于大数据的只限于了解,未有实际的使用,为了更好的面试,特总结了下Hive的相关知识
(1)什么是Hive
1.1 Hive是Hadoop工具家族中一个重要成员,可以将结构化的数据文件(HDFS)映射为一张数据库表。
1.2 Hive 定 ...
转:hwi hive
备忘,HWI安装过程,整理以前的记录,今又想起来重装一次,居然又遇到新的问题,由于是笔记,有点杂乱。
Hive Web Interface(HWI)简介:Hive自带了一个Web-GUI,功能不多,可用于效果展示,如果没有安装Hue的话,是个不错的选择。
由于hive-bin包中没有包含HWI的页面,只有Java代码编译好的jar包:hive-hwi-1.2.0.jar
因此需 ...
spark结合hive数据倾斜的几种解决方案
数据倾斜表现:
有的task执行很快,有的很慢或者内存溢出
定位数据倾斜的位置:
用client模式提交,观察log
解决方案
1、在hive etl时进行数据聚合,把key相同的数据聚合成一条数据,这样就可能不用shuffle了,从而解决数据倾斜。
当没办法对key进行聚合时也可以选择其它粒度聚合,比如数据中包含了几个城市,几个职业,可以选择合适的粒度聚合。
2、 ...
hive使用load加载数据1.0
安装hive
直接操作hive
create table if not exists L_EMPLOYEE (eid int,name String,salary String,destination String)
COMMENT 'Employee details'
ROW FORMAT delimited
fields terminated by '\t'
lines termina ...
@Marked-hive 下载和导入数据 hive -e
1. 从97导出dim_channel_terminal_flag表数据到txt(数据下载)
hive -e 'select * from dim.dim_city' >> dim_city.txt
hive -e "select * from app.app_cmo_user_buyview_kpi_report_di where dt='2016-03'&qu ...
人生苦短用tez
tez是什么? tez官网
普通执行hive 的速度:
用tez引擎后的速度:
使用方法:
set hive.execution.engine = tez;
默认值:
set hive.execution.engine = mr;
关于HIVE的小白经验
最后更新2016-11-24
1. 关于建立数据表
create table在本地系统创建。create external table在HDFS。
例子:
CREATE EXTERNAL TABLE atr_click_reqid (
atr_reqid string)
PARTITIONED BY (datecol string)
ROW ...
Hue+Hive临时目录权限不够解决方案
安装Hue后,可能会分配多个账户给一些业务部门操作hive,虽然可以正常写SQL提交任务,但是由于不同账户在生成MR任务时写入的临时文件,导致临时目录权限改变,假如下次有需要重启hiveserver2时,会报下面的一个异常:
Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeExc ...
hive自定义udf实现md5功能
Hive自定义UDF实现md5算法
Hive发展至今,自身已经非常成熟了,但是为了灵活性,还是提供了各种各样的 插件的方式,只有你想不到的,没有做不到的,主流的开源框架都有类似的机制,包括Hadoop,Solr,Hbase,ElasticSearch,这也是面向抽象编程的好处,非常容易扩展。
最近在使用hive1.2.0的版本,因为要给有一列的数据生成md5签名,便于查重数据使用,看了下hive ...