最新文章列表

spark sql on hive笔记一

Spark sql on Hive非常方便,通过共享读取hive的元数据,我们可以直接使用spark sql访问hive的库和表,做更快的OLAP的分析。 spark 如果想直接能集成sql,最好自己编译下源码: 切换scala的版本为新版本 dev/change-scala-version.sh 2.11 编译支持hive mvn -Pyarn -Phive -Phive-thriftser ...
qindongliang1922 评论(0) 有2266人浏览 2016-12-09 20:42

java,mysql,hadoop,cdh,hive,spark,ntp,zookeeper,kafka,storm,redis,flume,git 安装详解

    顶部 ---------------------------------------------------------------------------------------------------------------------------------- 0.关闭防火墙 1.修改hosts 2.检查每台机器的 hostname 3.安装jdk 4.网络、h ...
knight_black_bob 评论(0) 有4211人浏览 2016-12-06 17:15

hive udf 使用示例

 在使用过程中,在执行sql的过程中需要将partition按照一定的规则动态分区: import org.apache.hadoop.hive.ql.exec.UDF; public class SharedRouter extends UDF { private static SolrCloudPainRouter cloudPainRouter; public String ...
mozhenghua 评论(0) 有1977人浏览 2016-11-30 19:35

Hive2.1.0集成Tez

#### Tez是什么? Tez是Hontonworks开源的支持DAG作业的计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序 #### 如何编译 Tez最新的版本是0.8.4,本文就记录下Tez的编译过程,之前的Tez版本都是源码包,最新的版本虽然提供了编 ...
qindongliang1922 评论(2) 有1357人浏览 2016-11-21 19:39

hive设置mysql作为元数据库

安装hive,mysql略,主要记录一下问题 1.mysql无法远程的问题 现象如下   根据网上博客设置root的host为%,设置的截图如下,设置方式为,以root@localhost的方式登录,执行下面的三条命令   use mysql;update user set host = '%' where user = 'root';flush privileges;   ...
lkl 评论(0) 有729人浏览 2016-11-20 15:09

Hive学习系列(二)Hive的查询流程详解

此文为翻译的文档,英文连接为 https://cwiki.apache.org/confluence/display/Hive/Design#Design-HiveArchitecture   Hive 查询流程图如下 图中可以看出查询主要组件包含 UI(user interface) –用户提交查询或者其他操作,现在标准UI有CLI(command line interface ...
80197675 评论(0) 有3115人浏览 2016-11-18 11:25

Apache Hive2.1.0安装笔记

Hive2.x已经足够稳定了,前面也安装过hive0.x和Hive1.x的版本,今天我们来看下hive2.x如何安装使用。 环境: centos7.1 Hadoop2.7.3 JDK8 Hive2.1.0 1,首先需要下载hive最新的稳定版本的包,并保证的你Hadoop集群已经是能够正常运行的 http://ftp.kddilabs.jp/infosystems/apache/hi ...
qindongliang1922 评论(0) 有1227人浏览 2016-11-16 18:51

Hive学习系列(一)什么是Hive及Hive的架构

       最近一直在忙面试的事情,面试过程中碰到几家公司都问到了Hive,但是由于最近三年一直在忙海外数据仓库的事情,对于大数据的只限于了解,未有实际的使用,为了更好的面试,特总结了下Hive的相关知识 (1)什么是Hive         1.1 Hive是Hadoop工具家族中一个重要成员,可以将结构化的数据文件(HDFS)映射为一张数据库表。         1.2 Hive 定 ...
80197675 评论(0) 有5001人浏览 2016-11-15 18:07

转:hwi hive

备忘,HWI安装过程,整理以前的记录,今又想起来重装一次,居然又遇到新的问题,由于是笔记,有点杂乱。 Hive Web Interface(HWI)简介:Hive自带了一个Web-GUI,功能不多,可用于效果展示,如果没有安装Hue的话,是个不错的选择。   由于hive-bin包中没有包含HWI的页面,只有Java代码编译好的jar包:hive-hwi-1.2.0.jar   因此需 ...
tianmaotalk 评论(0) 有734人浏览 2016-10-17 14:55

hive学习使用

HQL数据查询 数据查询是hive最主要的功能 查询语法 select..from语句 基本和mysql的操作差不多 select col1,col2 from table; select col1 c1,col2 c2 from table; select l.name,r.cousrse from (select id,name from student) l join (sele ...
Janle 评论(0) 有515人浏览 2016-10-11 17:36

hive研究学习整理

hive的认识 hive的设计目的是为了让那些精通sql技能的而java技能较弱的数据分析师能够利用hadoop进行各做数据分析。也就是mapreduce不需要每个都写java代码 ...
Janle 评论(0) 有1799人浏览 2016-10-11 10:21

spark结合hive数据倾斜的几种解决方案

数据倾斜表现: 有的task执行很快,有的很慢或者内存溢出   定位数据倾斜的位置: 用client模式提交,观察log   解决方案 1、在hive etl时进行数据聚合,把key相同的数据聚合成一条数据,这样就可能不用shuffle了,从而解决数据倾斜。 当没办法对key进行聚合时也可以选择其它粒度聚合,比如数据中包含了几个城市,几个职业,可以选择合适的粒度聚合。   2、 ...
qianjiangbing 评论(0) 有1028人浏览 2016-10-05 20:37

hive使用load加载数据1.0

安装hive 直接操作hive create table if not exists L_EMPLOYEE (eid int,name String,salary String,destination String) COMMENT 'Employee details' ROW FORMAT delimited fields terminated by '\t' lines termina ...
Janle 评论(0) 有3129人浏览 2016-09-29 16:21

@Marked-hive 下载和导入数据 hive -e

  1. 从97导出dim_channel_terminal_flag表数据到txt(数据下载) hive -e 'select * from dim.dim_city' >> dim_city.txt hive -e "select * from app.app_cmo_user_buyview_kpi_report_di where dt='2016-03'&qu ...
dotjar 评论(0) 有3108人浏览 2016-09-20 17:59

hive执行job的时候卡死,执行进度总是0%,然后报错的问题分析和解决

因为跨机房业务需要,在另一个机房部署了一个小型的hadoop集群,其中一个节点为namenode无计算节点datanode,而其它两个节点为datanode节点其中每过节点分 ...
静水深流 评论(0) 有12644人浏览 2016-09-08 15:30

人生苦短用tez

tez是什么? tez官网   普通执行hive 的速度:   用tez引擎后的速度:     使用方法:   set hive.execution.engine = tez;    默认值: set hive.execution.engine = mr;  
aeolus1983 评论(0) 有380人浏览 2016-09-02 10:39

bboss持久层操作hive实例

先在应用中导入bboss 持久层和hive驱动(bboss persistent版本号5.0.1,以实际为准:查看最新版本号): maven坐标 <dependency>     <groupId>com.bbossgroups</groupId>     <artifactId>bboss-persistent</artifactId> ...
yin_bp 评论(0) 有675人浏览 2016-08-12 09:04

关于HIVE的小白经验

最后更新2016-11-24   1. 关于建立数据表      create table在本地系统创建。create external table在HDFS。 例子: CREATE EXTERNAL TABLE atr_click_reqid ( atr_reqid string) PARTITIONED BY (datecol string) ROW ...
aeolus1983 评论(0) 有402人浏览 2016-06-28 11:13

Hue+Hive临时目录权限不够解决方案

安装Hue后,可能会分配多个账户给一些业务部门操作hive,虽然可以正常写SQL提交任务,但是由于不同账户在生成MR任务时写入的临时文件,导致临时目录权限改变,假如下次有需要重启hiveserver2时,会报下面的一个异常: Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeExc ...
qindongliang1922 评论(0) 有4702人浏览 2016-06-14 10:40

hive自定义udf实现md5功能

Hive自定义UDF实现md5算法 Hive发展至今,自身已经非常成熟了,但是为了灵活性,还是提供了各种各样的 插件的方式,只有你想不到的,没有做不到的,主流的开源框架都有类似的机制,包括Hadoop,Solr,Hbase,ElasticSearch,这也是面向抽象编程的好处,非常容易扩展。 最近在使用hive1.2.0的版本,因为要给有一列的数据生成md5签名,便于查重数据使用,看了下hive ...
qindongliang1922 评论(0) 有5040人浏览 2016-05-25 11:54

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics