最新文章列表

Hive – 基于HADOOP的数据仓库

wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz tar -xzvf hive-0.11.0-bin.tar.gz cd hive-0.11.0-bin sudo vi /etc/profile 增加: export HIVE_HOME=/home/ysc/hive-0.10 ...
wbj0110 评论(0) 有960人浏览 2014-03-07 09:57

HBase Thrift 接口的一些使用问题及相关注意事项

HBase对于非Java语言提供了Thrift接口支持,这里结合对HBase Thrift接口(HBase版本为0.92.1)的使用经验,总结其中遇到的一些问题及其相关注意事项。 1. 字节的存放顺序 HBase中,由于row(row key和column family、column qualifier、time stamp)是按照字典序进行排序的,因此,对于short、int、long等类 ...
wbj0110 评论(0) 有1134人浏览 2014-02-12 10:19

hadoop中的数据序列化及数据类型

序列化是干什么用的?本质上讲,就是数据保存到虚拟机之外,然后又被读到虚拟机内.如果仅仅是保存,不关心能读进jvm的话,就不关心序列化问题了.正是因为需要被读进jvm,所以必须识别写出、读入的数据格式、字符顺序等问题。因此序列化也就是比较重视的事情了。拿密码来打比方。序列化就像加密,反序列化就像解密。只加密不解密那肯定是不行的。hdfs作为分布式存储系统必然涉及到序列化问题。       hd ...
wbj0110 评论(0) 有867人浏览 2014-02-10 15:20

HBase入门篇(转)

1-HBase的安装 HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这 ...
wbj0110 评论(0) 有1106人浏览 2014-02-07 09:37

Hbase quick start

1.2. Quick Start This guide describes setup of a standalone HBase instance. It will run against the local filesystem. In later sections we will take you through how to run HBase on HDFS, a distribut ...
wbj0110 评论(0) 有743人浏览 2014-01-26 11:12

Hive 数据倾斜总结

转载:http://www.tbdata.org/archives/2109 几个比较特殊的点都提到了,大家可以作为参考。   在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些 ...
kelvinliu117 评论(0) 有583人浏览 2013-12-27 18:10

Hive - hive.groupby.skewindata环境变量与负载均衡

HiveQL 去重操作 和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例: (1) SELECT count(DISTINCT uid) FROM log (2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip (3) SELECT ip, count(DISTINCT uid, uname) FROM log GR ...
kelvinliu117 评论(0) 有1507人浏览 2013-12-27 18:09

Hive优化2

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数据库下开发的一些固有思维。   基本原则: 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 select ... from A join ...
kelvinliu117 评论(0) 有495人浏览 2013-12-27 18:08

Hive优化总结(转)

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。   长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时 ...
kelvinliu117 评论(0) 有676人浏览 2013-12-27 18:06

Hive/Impala/集算器性能对比测试报告(下)——关联计算

上篇进行过Hive/Impala/集算器的分组计算的性能测试,本篇进行关联计算的性能测试及结果说明。   窄表的关联计算测试 数据样本         被关联表p_narrow。         列数:11         行数:5亿         文本状态下所占空间:120.6G。         数据结构: personid int,name string,sex int, ...
datamachine 评论(0) 有1460人浏览 2013-12-27 08:02

Hive/Impala/集算器的性能对比测试报告(上)

目的        对比Hive、集算器、Impala这三种大数据解决方案在分组汇总和关联计算时的性能差异。         硬件环境       PC数量:4       CPU:Int ...
datamachine 评论(2) 有1776人浏览 2013-12-23 16:52

运行MapReduce作业做集成测试

准备工作 以windows环境为例:  安装jdk,设置环境变量JAVA_HOME为jdk安装目录  安装Cygwin,安装时注意选择安装软件包openssh - Net 类,安装完成将cygwin/bin加入环境变量path。  确认ssh。打开cygwin命令行,分别执行以下命令   安装sshd:$ ssh-host-config   启动sshd服务:$ net st ...
wbj0110 评论(0) 有1029人浏览 2013-12-17 09:46

大数据潮流已经来临 ---- ITSoku带你一周快速掌握Hadoop开发与实战!

大数据的潮流已经来临,未来也将是数据的时代,Hadoop正是为大数据而来,为此ITSoku搜集了目前最好的相关视频,然后进行整理出能让我们在最短的时间中掌握该技术的整套视频专辑,分享给各位想学习Hadoop的朋友们,只希望大家学习Hadoop更容易更高效一些。   1. 炼数成金 hadoop 视频教程 (此专辑更注重于理论) 2.Hadoop实战视频专辑 (此专辑更注重于实战)   以 ...
lk557 评论(8) 有4622人浏览 2013-12-16 10:24

大数据来袭-Hadoop实战视频专辑带你快速入门到精通!

简介:本视频从网络上整理而来,是传智播客开办Hadoop培训以来的第一部视频教程,内容讲解精细,实战实例,分享到这里大家共同学习。 1  Hadoop实战_1 2013-12-15 10:27 | 播放(2) | 评论(0) | 时长:50:17
lk557 评论(0) 有1655人浏览 2013-12-16 10:10

FACEBOOK架构

http://www.jdon.com/artichect/facebook.html
wbj0110 评论(0) 有736人浏览 2013-12-16 10:00

Hive的入门安装

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive最早由facebook开源,最初用于解决海量结构化的日志数据统计问题,是一 ...
qindongliang1922 评论(0) 有1746人浏览 2013-12-09 15:44

GitHub项目Storm-HBase介绍

Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。HBaseSpout根据时间戳范围[start_timestamp, stop_timestamp],持续不间断地从HBase cluster读取流数据: 如果start_timestamp = 0 ...
wbj0110 评论(0) 有1081人浏览 2013-12-06 10:17

[半转]遇到Map-side Aggregation OOM 异常

原文来自:http://blog.csdn.net/macyang/article/details/9260777    通读了一下,进行翻译: 在MapReduce job下面,有个Combiner,工作机制是将Reducer的工作分担一部分给Map阶段来做。 在Hive的执行计划优化中也是如此,默认情况下会开启Map-side Aggregation优化的功能。   select ...
dacoolbaby 评论(0) 有3289人浏览 2013-12-03 15:07

Hadoop分布式文件系统:架构和设计要点(转)

一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、 ...
wbj0110 评论(0) 有858人浏览 2013-11-08 09:29

[转]Hive实现Oracle wm_concat函数

工作中遇到将Hive数据组装同步到MongoDB的需求。 于是乎,传统的DB设计结构就遇到了难题,因此需要有个向WM_CONCAT的函数来将列转行。 还好有现成的解决方案,否则又要自己码一个UDAF处理函数。 hive> desc t;    OK    id      string    str     string    Time taken: 0 ...
dacoolbaby 评论(0) 有3636人浏览 2013-10-24 11:24

最近博客热门TAG

Java(141746) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics