lt200819

浏览: 193014 次
性别:
来自: 北京

最近访客更多访客>>

lizhiqiang

angelmm1234567

1988xuxuxu

jingkyks

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

walter的drill笔试之二-安装与部署

博客分类：

drill
海量数据处理

drill 安装部署分布式

安装

系统环境

linux版本：redhat6

jdk:jdk1.7

1.本地安装与测试

1.1安装

1.1.1下载Drill M1 binary release

http://people.apache.org/~jacques/apache-drill-1.0.0-m1.rc3/apache-drill-1.0.0-m1-binary-release.tar.gz

1.1.2 解压apache-drill-1.0.0-m1-binary-release.tar.gz并做链接

tar -zxf apache-drill-1.0.0-m1-binary-release.tar.gz

做link链接

ln -s apache-drill-1.0.0-m1 drill

1.1.3 配置环境变量

export DRILL_HOME=/home/{username}/drill

export PATH=$PATH:$DRILL_HOME/bin

1.2测试

1.2.1连接

[sudo] sqlline -u jdbc:drill:schema=parquet-local -n admin -p admin

解析：schema原生定义了5种类型：

parquet-local（本地parquet），parquet-cp(classpath-parquet)， jsonl（本地json），parquet(classpath-parquet),parquet

具体的定义，参照conf/storage-engines.json

1.2.2退出

jdbc:drill:schema=parquet-local> !q

1.2.3运行一个QUERY

select * from “sample-data/region.parquet";

语句指南

https://developers.google.com/bigquery/query-reference

https://cwiki.apache.org/confluence/display/DRILL/Running+Queries

2. 分布式安装与测试

2.1安装

2.1.1.安装Hadoop

当前drill的原生支持的版本为hadoop1.2

http://litongbupt.iteye.com/blog/1473179

http://litongbupt.iteye.com/blog/1473265

启动hadoop

2.1.2.安装Zookeeper

官网推荐安装Zookeeper3.4.3，经笔者测试，3.4.5也是可以使用的。

部署并启动zookeeper

http://litongbupt.iteye.com/admin/blogs/1987737

2.1.3 部署drill的分布式模式

修改conf/drill-override.conf文件 zk:connect:“{zookeeper地址}:2181”

修改conf/storage-engines文件

"parquet" :

{

"type":"parquet",

"dfsName" : “hdfs://{hadoop的namenode地址}:9000”

"json" :

{

"type":"json",

"dfsName" : "hdfs://{hadoop的namenode地址}:9000"

}

将.bashrc拷贝到其他节点

在每一个节点启动drill: sudo drillbit.sh start

2.2测试

2.2.1测试drill集群是否启动成功

zkCli.sh -server {zookeeper地址}:2181

get /drill/drillbits1

cZxid = 0x100000003

ctime = Tue Dec 10 10:18:42 CST 2013

mZxid = 0x100000003

mtime = Tue Dec 10 10:18:42 CST 2013

pZxid = 0x10000001c

cversion = 12

dataVersion = 0

aclVersion = 0

ephemeralOwner = 0x0

dataLength = 0

numChildren = 4

这次测试用了numChildren = 4个节点

2.2.2测试QUERY

把数据放到HDFS上 hadoop fs -put sample-data /

链接集群 sqlline -u jdbc:drill:schema=parquet

SELECT _MAP['R_REGIONKEY'] as region_key, _MAP['R_NAME'] AS name, _MAP['R_COMMENT'] AS comment FROM “/sample-data/region.parquet";

SELECT count(distinct _MAP['N_REGIONKEY']) FROM “/sample-data/nation.parquet";

SELECT _MAP['N_REGIONKEY'] as regionKey, _MAP['N_NAME'] as name FROM “/sample-data/nation.parquet" WHERE cast(_MAP['N_NAME'] as varchar) < 'M';

2.3 关闭集群

2.3.1关闭drill集群

在每个节点上执行 sudo drillbit.sh stop

2.3.2关闭zookeeper

在每个节点上执行 sudo zkServer.sh stop

2.3.3在namenode上执行

sudo stop-all.sh

分享到：

安装zookeeper并部署分布式模式

2013-12-10 16:01
浏览 2362
评论(3)
分类:开源软件
查看更多

3 楼 duguyiren3476 2015-04-16

我现在的版本是drill0.8.0版本的,搭建了分布式4个节点,但是查询了4千万的数据量的响应时间与单个节点查询的响应时间没有啥变化啊,这是怎么回事呢?求指点迷津

2 楼 lt200819 2014-01-24

zh55com 写道

如何查询mysql数据？如何查询hbase数据？

现在好像还不支持

1 楼 zh55com 2014-01-17

如何查询mysql数据？如何查询hbase数据？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

walter的drill笔试之二-安装与部署

安装

系统环境

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

walter的drill笔试之二-安装与部署

安装

系统环境

评论

发表评论

相关推荐

安装zookeeper并部署分布式模式

walter的dril笔记之一-简介

【转】Google Dremel 原理 - 如何能3秒分析1PB

storm调研

Hadoop YARN框架调研以及问题总结

海量数据处理之四：堆

海量数据处理之五：面试题整理

海量数据处理之三：Hash

海量数据处理之二：Bloom Filter

海量数据处理之一：Bitmap

Bloom Filter概念和原理

最近访客更多访客>>