原创,转载请注明出处
花了点时间将drill+apache hadoop2.2 编译出来了。
之前在drill邮件列表将编译过程整理了一下,现在也整理一份放在我的iteye上面。。
1. add a profile section to pom.xml:
<profile>
<id>apache</id>
<properties>
<alt-hadoop>apache</alt-hadoop>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.2.0</version>
<exclusions>
<exclusion>
<artifactId>commons-logging</artifactId>
<groupId>commons-logging</groupId>
</exclusion>
</exclusions>
</dependency>
<dependency>
<groupId>jline</groupId>
<artifactId>jline</artifactId>
<version>2.10</version>
</dependency>
</dependencies>
</profile>
2: complie the src:
mvn clean install -DskipTests -Papache
3. after compile successfully,
$ cd distribution/
$ ls
pom.xml src target
$ cd target/
$ tar -xf apache-drill-1.0.0-m1-incubating-binary-release.tar.gz
$ ls apache-drill-1.0.0-m1-incubating/lib/protobuf-java-2.4.1.jar
apache-drill-1.0.0-m1-incubating/lib/protobuf-java-2.4.1.jar
You need to change the
protobuf-java-2.4.1.jar to
protobuf-java-2.5.0.jar.
Test:
4. add a dfs storage in conf/storage-engines.json
"parquet-dfs" :
{
"type":"parquet",
"dfsName" : "hdfs://hadoop2:8020/drill"
}
5.You also need to make some changes in the bin/drill-config.sh
if [ "${HADOOP_HOME}x" != "x" ]
then
HADOOP_CLASSPATH=""
for jar in `ls[color=red] $HADOOP_HOME/share/hadoop/*/*.jar`[/color]
do
echo $jar | grep -v -f $DRILL_HOME/bin/hadoop-excludes.txt >/dev/null
if [ "$?" -eq "0" ]
then
HADOOP_CLASSPATH=$jar:$HADOOP_CLASSPATH
fi
done
export HADOOP_CLASSPATH=$HADOOP_HOME/conf:$HADOOP_CLASSPATH
//若你配置了HA,或者Federation,你同样需要将你的hadoop的conf添加进来
//这里改成export HADOOP_CLASSPATH=$HADOOP_HOME/etc/hadoop/:$HADOOP_CLASSPATH
fi
6.$ ./bin/sqlline -u jdbc:drill:schema=parquet-dfs
Loaded singnal handler: SunSignalHandler
/home/drill/.sqlline/sqlline.properties (No such file or directory)
scan complete in 25ms
scan complete in 4053ms
Connecting to jdbc:drill:schema=parquet-dfs
Connected to: Drill (version 1.0)
Driver: Apache Drill JDBC Driver (version 1.0)
Autocommit status: true
Transaction isolation: TRANSACTION_REPEATABLE_READ
sqlline version ??? by Marc Prud'hommeaux
0: jdbc:drill:schema=parquet-dfs> select * from "/drill/region.parquet"
. . . . . . . . . . . . . . . . > ;
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
+------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| _MAP |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| {"R_REGIONKEY":0,"R_NAME":"AFRICA","R_COMMENT":"lar deposits. blithely final packages cajole. regular waters are final requests. regular accounts are according |
| {"R_REGIONKEY":1,"R_NAME":"AMERICA","R_COMMENT":"hs use ironic, even requests. s"} |
| {"R_REGIONKEY":2,"R_NAME":"ASIA","R_COMMENT":"ges. thinly even pinto beans ca"} |
| {"R_REGIONKEY":3,"R_NAME":"EUROPE","R_COMMENT":"ly final courts cajole furiously final excuse"} |
| {"R_REGIONKEY":4,"R_NAME":"MIDDLE EAST","R_COMMENT":"uickly special accounts cajole carefully blithely close requests. carefully final asymptotes haggle furious |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------+
5 rows selected (4.928 seconds)
0: jdbc:drill:schema=parquet-dfs>
分享到:
相关推荐
Apache Drill是一个开源的SQL查询引擎,它能够查询各种数据源,包括Hadoop上的数据、NoSQL数据库、云存储服务和本地文件系统。这本书的作者是Charles Givre和Paul Rogers,2019年首次发布。 首先,Apache Drill是一...
与传统的Hive不同,Drill不依赖MapReduce作业,并且它并不完全基于Hadoop生态系统。实际上,Drill的设计灵感来源于Google的Dremel概念,这是一种用于大规模数据查询的高效工具,后来演变为Apache软件基金会的一个...
- **Coordinator**:协调整个Drill集群,接收用户的查询请求,编译查询计划,并分配给各个Drillbit执行。 - **User Server**:处理用户的连接和认证,将查询转发给Coordinator。 - **Storage Plugins**:插件机制...
MapR则通过支持本地Unix文件系统而非HDFS,提高了性能和易用性,并引领了Apache Drill项目,提供类似SQL的查询能力,实现Hadoop数据的实时处理。 在数据存储的设计原则中,局部性定律是一个关键概念,强调将常用...
集群安装需要 JDK7、Zookeeper 集群和 Hadoop 集群等环境,Drill 节点需要分配相同的集群 ID,并配置 Zookeeper 的主机名和端口号。 2. Apache Drill 的架构和组件 Apache Drill 由多个组件组成,包括 Drillbit、...
**DiskDrill 1.8 数据恢复软件详解** DiskDrill是一款强大的数据恢复工具,尤其在Mac操作系统中表现优秀。该软件的主要功能是帮助用户恢复意外丢失或删除的文件,无论是由于误操作、系统崩溃还是硬件故障导致的数据...
- **数据分散**:随着业务的发展,数据往往分布在不同的数据产品中,如RDBMS、Hadoop、Hive、Hbase、Cassandra等,这增加了数据分析的复杂性。 - **技能要求**:传统的数据分析往往需要掌握多种编程语言(如Java、...
engine = create_engine('drill+http://<DRILLBIT_ENDPOINT>:8047') ``` 一旦有了引擎,就可以开始使用SQLAlchemy的标准API进行数据操作了,比如创建会话,执行查询,甚至进行事务处理。例如: ```python from ...
其他解决方案包括Hive、Impala、Drill、Presto、Spark+Shark等。这些解决方案都可以将SQL翻译为MapReduce作业,或者使用MPP引擎来处理SQL查询。 Kylin的开发是由于现有的SQL-on-Hadoop解决方案存在一些局限性,...
### 基于Hadoop的几大开源类SQL查询系统对比 #### 1. Hive **简介** Hive是一款基于Hadoop的数据仓库工具,能够将结构化的数据文件映射为数据库表,并支持SQL查询功能。它能将SQL语句转换为MapReduce任务执行,为...
同时,Kafka、Drill等组件的加入为Hadoop带来了新的数据处理场景和能力。 4. 社区和组织结构的发展: - 个人成长:文档中提到了Todd Lipcon作为Hadoop早期用户,后来加入了Cloudera,并在ASF中成为了Apache Kudu...
450+ AWS,Hadoop,云,Kafka,Docker,Elasticsearch,RabbitMQ,Redis,HBase,Solr,Cassandra,ZooKeeper,HDFS,Yarn,Hive,Presto,Drill,Impala,Consul,Spark,Jenkins,Travis CI,Git,MySQL ,Linux,...
disk drill 破解版, windowns 版。用于磁盘文件恢复,不限量
### Altium输出Gerber & Drill 文件的详细方法与步骤 #### 一、Altium输出Gerber文件 在Altium Designer中输出Gerber文件是电路板制造的重要步骤之一,它能够确保设计者的设计意图准确无误地传递给制造商。以下是...
介绍Apache Kylin的背景,技术架构及演进,产品功能和性能等内容,以及开源现状和发展方向等,例如与Spark/Drill等的集成等。Apache Kylin是由eBay研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)...
Drill作为一个开源的分布式SQL查询引擎,旨在对Hadoop、NoSQL和云存储服务等大规模数据集执行低延迟的数据查询。它支持标准的ANSI SQL,包括子查询、连接和聚合,并且能够处理复杂的查询,包括嵌套和多行数据,不...
它支持SQL查询语言,使得用户能够方便地处理各种不同类型的数据源,如Hadoop、NoSQL数据库、云存储等。在Apache Drill 1.18版本中,我们找到了一些常用的SQL函数,这些函数对于数据转换和处理非常有用。 首先,`...
同时,还有一些基于Hadoop的衍生项目,如Accumulo、Dremel、Drill、Tez、Impala和Tajo等,它们提供了更高效、更灵活的数据查询和分析功能。 【总结】 Hadoop作为一个通用的大数据存储和分析处理平台,其强大的...
文件恢复工具,U盘恢复,硬盘恢复,文件恢复,disk drill破解版,免费