最新文章列表

hive实战(1)hive安装准备

1.安装Hadoop环境,参见 http://zilongzilong.iteye.com/blog/2245547 2.安装hbase环境,参见http://zilongzilong.iteye.com/blog/2254460 3.安装MySQL       注意:安装MySQL不是必须的,hive自带数据库Derby也是可行的,那为什么要推荐安装MySQL呢,原因是Derby只支 ...
zilongzilong 评论(0) 有1355人浏览 2016-02-02 16:52

Hive中Join的原理和机制

Hive中Join的原理和机制 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。 1 Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段 ...
daizj 评论(0) 有943人浏览 2016-01-22 20:36

hive 随机抽样

1. Random sampling 使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY RAND()语句可以获得同样的效果,但是性能没这么高。 --Syntax:         SELECT * FROM <Table_Name> DISTRIBUTE BY R ...
daizj 评论(0) 有14561人浏览 2016-01-22 20:23

Spark SQL+Hive历险记

基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 (1)提前安装好scala的版本,我这里是2.11.7 (2)下载spark-1.6.0源码,解压进入根目录编译 (3)dev/change-scala-version.sh 2.11 修改pom文件,修改对应的hadoop,hb ...
qindongliang1922 评论(5) 有6129人浏览 2016-01-21 11:40

hive on spark 测试

基础环境: Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 ...
qindongliang1922 评论(0) 有1819人浏览 2016-01-18 18:06

hive是基于Hadoop的一个数据仓库工具

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive最早由facebook开源,最初用于解决海量结构化的日志数据统计问题,是 ...
weitao1026 评论(0) 有898人浏览 2016-01-17 02:04

安装的Hive

安装的Hive是Hive最新版本中的稳定版本,是基于Hadoop2.2.0,以前有写过,如何在hadoop1.x下面安装Hive0.8,本次Hive的版本是Hive0.13,可以直接在Hive官网上下载二进制包,无须进行源码编译。Hive需要依赖底层的Hadoop环境,所以在安装Hive前,请确保你的hadoop集群环境已经可以正常工作。 Hive0.13稳定版本的下载地址 http://apa ...
weitao1026 评论(0) 有672人浏览 2016-01-17 02:04

使用Hive如何和Hbase集成

使用Hive如何和Hbase集成,Hbase和Hive的底层存储都在HDFS上,都是hadoop生态系统中的重要一员,所以他们之间有着很亲密的联系,可以相互转换与操作。 hadoop,hbase和hive的搭建就不重复说了,不会的朋友,可以看散仙前面的博客,下面直接进入重点,关于hive集成hbase这一块,网上资料不算多,有的版本比较旧,散仙这里使用的版本是hive0.12和hbase0.96 ...
weitao1026 评论(0) 有519人浏览 2016-01-17 02:03

Hive集成Tez让大象飞起来

基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 安装Tez,请参考上篇 ...
qindongliang1922 评论(0) 有3154人浏览 2016-01-15 16:52

Apache Tez0.7编译笔记

目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-src.tar.gz 由于编译Tez-UI模块,需要使用nodejs,所以建议还是 提前安装nodejs 和npm工具,安装方式,可以下载源码安装 也可以yum安装,安装步骤: ...
qindongliang1922 评论(0) 有2523人浏览 2016-01-15 16:33

Bug死磕之hue集成的oozie+pig出现资源任务死锁问题

这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最 ...
qindongliang1922 评论(0) 有3835人浏览 2016-01-14 15:52

hive on spark的安装及问题

配置hive hive-site <property> <name>hive.metastore.uris</name> <value>thrift://database:9083</value> </property> <property> <nam ...
smarthhl 评论(0) 有1647人浏览 2016-01-05 12:52

hive文件合并方法

当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成 ...
daizj 评论(0) 有4349人浏览 2015-12-26 17:40

FineReport中hadoop,hive数据库连接解决方案

1. 描述 Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具。一般来说我们对Hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,这样的模式用来做一些测试比较合适,并不适合做产品的开发和应用。 因此,就产生了Hive的JDBC连接的方式。本文介绍报表开发工具FineReport中,ha ...
张老师的菜 评论(0) 有764人浏览 2015-12-17 09:32

hive启动报错org.apache.hadoop.hive.ql.metadata.,org.apache.derby.jdbc.EmbeddedDriver

使用CHD版本HIVE:hive-1.1.0-cdh5.4.8.tar.gz 在HIVE_HOME/bin目录 使用 ./hive启动HIVE报错,错误如下: Logging initialized using configuration in jar:file:/home/hadoop/hive-1.1.0-cdh5.4.8/lib/hive-common-1.1.0-cdh5.4.8.ja ...
beat_it_ 评论(0) 有12201人浏览 2015-12-12 15:31

Hive (一) 简介

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。   适用场景 Hive 的最佳使 ...
bibithink 评论(0) 有589人浏览 2015-12-10 11:51

使用flume日志采集直接将采集数据导入hive

  今天给大家分享下 使用flume采集日志,直接将日志导入对应的hive表中,然后使用hive进行日志分析   下面就以apache access log为例   具体使用hive的 ...
sungang_1120 评论(0) 有2778人浏览 2015-12-08 13:34

ClassNotFoundException: Class org.apache.hadoop.hive.contrib.serde2.RegexSerDe n

  今天使用flume采集apache access log到hive表中,然后使用hiveQL进行日志分析,出现错误:     需要修改 1,HIVE_HOME/conf/hive-env.sh 加上HADOOP_HOME=you home   2,HIVE_HOME/conf/hive-site.xml 加上 <property> < ...
sungang_1120 评论(0) 有890人浏览 2015-12-08 13:13

total number of created files now is 100385, which exceeds 100000. Killing the j

  今天将临时表里面的数据按照天分区插入到线上的表中去,出现了Hive创建的文件数大于100000个的情况,我的SQL如下:   hive> insert overwrite table test partition(dt) > select * from table_tmp;  table_tmp表里面一共有570多G的数据,一共可以分成76个分区,SQL运行的时候 ...
sungang_1120 评论(0) 有3385人浏览 2015-12-07 10:17

spark sql基本使用方法介绍

spark中可以通过spark sql 直接查询hive或impala中的数据,   一、启动方法 /data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10  --executor-memory 1g --executor-cores  2   注:/d ...
daizj 评论(0) 有7308人浏览 2015-11-23 19:22

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics