- 浏览: 155186 次
最新评论
-
cldtc:
您好,想请教一个问题,using python脚本的时候怎样打 ...
Hadoop Hive sql语法详解5--HiveQL与SQL区别
文章列表
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构
化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需
要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据。而mapreduce开发人员可以把
己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析。
它与关系型数据库的SQL 略有 ...
例如给出表child-parent表,要求输出grandchildren-grandparent表
给出:
child parent
Tom Lucy
Tom Jack
Jone Lucy
Jone Jack
Lucy Mary
Lucy Ben
Jack Alice
Jack Jesse
输出:
Tom Alice
Tom Jesse
Jone Alice
Jone Jesse
Tom Mary
Tom Ben
Jone Mary
Jone Ben
假设有如下两个文件,一个是表是公司和地址的序号的对应,一个表是地址的序号和地址的名称的对应。
表1:
[plain]
A:Beijing Red Star 1
A:Shenzhen Thunder 3
A:Guangzhou Honda 2
A:Beijing Rising 1
A:Guangzhou Development Bank 2
A:Tencent 3
A:Back of Beijing 1
表2:
[plain]
B:1 Beijing
B:2 Guangzhou
B: ...
分布式数据库HBase本身不支持SQL语法,要统计表的行数,只能通过其他的方式来实现。HBase的shell脚本提供了count命令,但该命令只是简单地scan全表然后将行数累加,效率很低只能用于测试或者统计小表了。另一解决方案是使用Map ...
转-用Hadoop构建电影推荐系统
- 博客分类:
- Hadoop
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发 ...
HDFS追本溯源:体系架构详解
- 博客分类:
- Hadoop
Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。HDFS在Hadoop中扮演了非常基础的作用,以文件系统的形式为上层应用提供海量数据的存储服务。
HDFS作为一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供 ...
Hadoop面试45个题目和参考答案
- 博客分类:
- Hadoop
1.Hadoop集群可以运行的3个模式?
单机(本地)模式
伪分布式模式
全分布式模式
2. 单机(本地)模式中的注意点?
在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。
3. 伪分布模式中的注意点?
伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。
4. VM是否可以称为Pseudo?
不是,两个事物,同时Pseudo只针对Hadoop。
5. 全 ...
linux下scp命令详解
- 博客分类:
- Linux
scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器,而且scp传输是加密的。可能会稍微影响一下速度。当你服务器硬盘变为只读 read only system时,用scp可以帮你把文件移出来。另外,scp还非常不占资源,不会提高多少系统负荷,在这一点上,rsync就远远不及它了。虽然 rsync比scp会快一点,但当小文件众多的情况下,rsync会导致硬盘I/O非常高,而scp基本不影响系统正常使用。
1.命令格式:
scp [参数] [原路径] [目标路径]
2.
遇到问题以后先查看日志,以下是常见的错误情况及解决方法,希望对大家有所帮助。
1、启动hadoop时没有NameNode的可能原因:
(1) NameNode没有格式化
(2) 环境变量配置错误
(3) Ip和hostname绑定失败
2、地址占用
报错:org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use
解决方法:查找被占用的端口号对应的PID:netstat –tunl
Pkill -9 PID
实在不行就killall -9 java
3、safeM ...
1、通过命令tar xvf hbase-0.90.4.tar.gz解压到当前文件夹2、 修改HBase的配置文件:编辑所有机器上的hbase安装目录conf目录下的hbase-site.xml、hbase-default.xml、hbase-env.sh几个文件,当然可以先配置主机的然后通过scp命令拷贝到虚拟机上,但是可能要做相应的路径修改。a. Hbase-site.xml:编辑这个文件要注意hbase.rootdir参数,这个参数的前面部分必须与你的hadoop集群里的core-site.xml文件里fs.default.name保持一致才可以。在就是hbase该项不识别机器的IP,只能使 ...
2014-04-11 02:41:20,142 FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: Master rejected startup because clock is out of syncorg.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoop3,60020,1397155279126 has been rejected; Reported time ...
安装和配置详解
本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。
单机模式
单机安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目录如:/home/zookeeper-3.2.2 下,Zookeeper 的启动脚本在 bin 目录下,Linux 下的启动脚本是 zkServer.sh,在 3.2.2 这个版本 Zookeeper ...
本文源自InfoQ发表的《Java 并发编程的艺术》电子书 作者:方腾飞 序言:张龙 免费下载此迷你书
推荐序
欣闻腾飞兄弟的《聊聊并发》系列文章将要集结成InfoQ迷你书进行发布,我感到非常的振奋。这一系列文章从最开始的发布到现在已经经历了两年多的时间,这两年间,Java世界发生了翻天覆地的变化。Java 7已经发布,而且Java 8也将在下个月姗姗来迟。围绕着JVM已经形成了一个庞大且繁荣的生态圈,Groovy、Scala、Clojure、Ceylon等众多JVM语言在蓬勃发展着,如今的Java已经不是几年前的Java了,众多运行在JVM上的编程语言为我们带来了更多的选择,提 ...
【推荐】深入理解Java内存模型--电子书
- 博客分类:
- Java
Java线程之间的通信对程序员完全透明,内存可见性问题很容易困扰java程序员,本文试图揭开java内存模型神秘的面纱。本文大致分三部分:重排序与顺序一致性;三个同步原语(lock,volatile,final)的内存语义,重排序规则及在处理器中的实现;java内存模型的设计,及其与处理器内存模型和顺序一致性内存模型的关系。
本期主编:张龙
http://www.infoq.com/cn/minibooks/download/java_memory_model
目录:
初始Hive
Hive安装与配置
Hive 内建操作符与函数开发
Hive JDBC