`

impala debug前期部署

 
阅读更多
一.准备LLVM
LLVM :从nobida143拷贝   scp -rq nobida143:/opt/llvm-3.3 /opt/
1. 添加LLVM_HOME   vim ~/.bashrc 增加一行 export LLVM_HOME=/opt/llvm-3.3
二.准备BOOST
2. BOOST : 从nobida143拷贝 scp -rq nobida143:/usr/local/lib/boost /usr/local/lib/
3. vim /etc/ld.so.conf.d/boost-x86_64.conf    增加一行/usr/local/lib/boost
4. ldconfig
三.准备Maven
四.Impala编译(hadoop,hive使用的是impala中的thirdparty中带的)
5. cd /home/data2/wangyh/Impala-cdh5-2.0_5.2.0/
6. 修改impala-config.sh
export HIVE_HOME=$IMPALA_HOME/thirdparty/hive-${IMPALA_HIVE_VERSION}
export HIVE_CONF_DIR=$HIVE_HOME/conf
export HADOOP_HOME=$IMPALA_HOME/thirdparty/hadoop-${IMPALA_HADOOP_VERSION}
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
7. source bin/impala-config.sh
8. ./build-all.sh –notests  –noclean
9. 修改thirdparty/hadoop-2.5.0-cdh5.2.0/etc/hadoop core-site.xml  hdfs-site.xml  slaves文件(红色标红的是需要修改的)
core-site.xml 如下:
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://nobida145:8020</value>
  </property>
  <property>
    <name>fs.trash.interval</name>
    <value>10080</value>
  </property>
  <property>
    <name>fs.trash.checkpoint.interval</name>
    <value>10080</value>
  </property>
  <property>
    <name>io.native.lib.available</name>
    <value>true</value>
  </property>
</configuration>


hdfs-site.xml如下:
<configuration>
<property>
  <name>fs.checkpoint.dir</name>
  <value>/home/data3/secondarynamenode</value>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/data1/hadoop-cdh5.2-nn</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>   <value>/home/data6/hdfs-data,/home/data7/hdfs-data,/home/data8/hdfs-data,/home/data9/hdfs-data</value>
</property>
<property>
  <name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
  <value>true</value>
</property>
<property>
   <name>dfs.client.use.legacy.blockreader.local</name>
   <value>false</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>
<property>
  <name>dfs.support.append</name>
  <value>true</value>
</property>
<property>
  <name>dfs.block.local-path-access.user</name>
  <value>root</value>
</property>
<property>
  <name>dfs.client.read.shortcircuit</name>
  <value>true</value>
</property>

<property>
  <name>dfs.domain.socket.path</name>
  <value>/var/run/hadoop-hdfs/dn._PORT</value>
</property>
<property>
  <name>dfs.client.file-block-storage-locations.timeout</name>
  <value>10000</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/home/data1/hdfs-data</value>
</property>
<property>
  <name>dfs.webhdfs.enabled</name>
  <value>true</value>
</property>
</configuration>

<!--  fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。-->
<!--  dfs.data.dir - 这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值hadoop.tmp.dir, 这个路径只能用于测试的目的,因为,它很可能会丢失掉一些数据。所以,这个值最好还是被覆盖。
dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。-->
<!—hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中-->

slaves如下:
nobida145
10. 修改 thirdparty/ hive-0.13.1-cdh5.2.0/conf下的hive-site.xml
hive-site.xml如下:(请见附件hive-site.xml)

11. 修改 bin/set-classpath.sh
CLASSPATH=\
$IMPALA_HOME/conf:\
$IMPALA_HOME/fe/src/test/resources:\
$IMPALA_HOME/fe/target/classes:\
$IMPALA_HOME/fe/target/dependency:\
$IMPALA_HOME/fe/target/test-classes:\
${HIVE_HOME}/lib/datanucleus-api-jdo-3.2.1.jar:\
${HIVE_HOME}/lib/datanucleus-core-3.2.2.jar:\
${HIVE_HOME}/lib/datanucleus-rdbms-3.2.1.jar:
增加一行,$IMPALA_HOME/conf:\,同时在$IMPALA_HOME下建立conf文件夹,将core-site.xml  hdfs-site.xml  hive-site.xml三个文件考到conf目录下

12. Hadoop namenode –format 并启动dfs,hive
13. bin/start-impala-cluster.py  -s  1 启动impala
五.遇到的错误
1.impala不能读写hdfs,原因 bin/set-classpath.sh中set-classpathsh 增加了conf后面忘记写:
2.datanode或者namenode启动不起来,把hadoop.tmp.dir对应的文件夹清空,dfs.datanode.data.dir对应的文件夹删除(根据日志具体情况具体分析)

分享到:
评论

相关推荐

    Impala-cdh集群安装部署

    本文档部署impala时所用到的Hive、Hadoop等环境的安装方式是使用tar包方式安装的(cdh版本的tar包安装与Apache的tar包安装方式相同)。cdh版本的tar包下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

    impala的安装

    Impala作为一款由Cloudera提供的SQL查询工具,是大数据实时分析查询引擎的典型代表。它的最大特点是能够提供快速的数据查询服务,性能上比Hive快3到10倍,相较于SparkSQL等其他查询工具亦有着更快的速度。其设计主要...

    impala单机部署手册

    Impala 单机部署手册 Impala 是 Cloudera 提供的一款高效率的 SQL 查询工具,提供实时的查询效果,官方测试性能比 Hive 快 10 到 100 倍,其 SQL 查询比 SparkSQL 还要更加快速,号称是当前大数据领域最快的查询 ...

    springboot集成impala(包含yml、impala配置类、pom.xml、impala jar)

    在本文中,我们将深入探讨如何在SpringBoot应用中集成Impala数据仓库系统,以及涉及到的相关配置和步骤。首先,我们来看看关键的组成部分: 1. **SpringBoot集成**: SpringBoot是基于Spring框架的一个轻量级开发...

    Apache Impala Guide impala-3.3.pdf

    部署Impala之前,需要考虑一系列因素。首先要检查支持的操作系统、Hive元数据存储的配置、Java依赖项、网络配置要求、硬件要求和用户账户需求。设计Impala模式时,还要遵循一定的指导原则,以确保最佳的性能和可管理...

    impala-3.4.pdf

    “Planning for Impala Deployment”、“Impala Requirements”和“Hardware Requirements”部分,可能涉及到Impala部署的前期规划,包括支持的操作系统、网络配置、硬件需求等。此外,还可能包括用户账户需求以及...

    impala官方文档

    1. **集群部署**:Impala可以在单个节点或多个节点组成的集群上部署。 2. **状态监控**:提供了丰富的监控工具和API,帮助管理员实时监控集群状态和查询性能。 3. **故障恢复**:具有自动故障恢复机制,当某个节点...

    dbeaver impala jdbc连接包

    标题 "dbeaver impala jdbc连接包" 涉及到的是在数据管理工具DBeaver中连接Impala数据库所必需的Java Database Connectivity (JDBC)驱动。Impala是Cloudera Data Hub (CDH)中的一种分布式分析引擎,用于处理大规模的...

    Impala大数据分析快速入门视频教程

    第三章:基于Cloudera镜像部署分布式Impala 1.基于CDH5.14构建本地Yum镜像 2.企业级分布式Impala部署 3.企业级配置与Hadoop集成 4.企业级配置与Hive集成 5.主从架构及元数据服务管理 第四章:Impala企业...

    Cloudera Impalad分布式群集部署(yum本地源+代码实例)

    本文将详细介绍如何在 Centos 6.xx 64 位系统环境下部署基于 Cloudera Impala 的分布式集群,包括系统准备、JDK 安装、主机名修改、SSH 无密码访问配置、防火墙及 SELINUX 关闭、NTP 服务安装等步骤,并结合 yum ...

    impala-2.9.pdf

    Apache Impala 指南 Apache Impala 是一个基于 Apache Hadoop 的查询引擎,旨在提供高效、可扩展的数据分析解决方案。下面是 Impala 的重要知识点: Impala 的优点 Impala 的主要优点包括: * 高性能查询:...

    impala3.0参考英文版

    Impala是一个开源的分布式SQL查询引擎,专门...总体而言,Impala3.0参考文档为用户提供了全面的技术支持,无论用户是刚刚开始探索Impala,还是希望深入优化和升级现有的Impala部署,这些文档都将是一个宝贵的学习资源。

    cloudera-impala官方手册

    - **易于部署和管理**:Cloudera Manager 提供了一个统一的界面用于部署、配置和监控 Impala,大大简化了系统的运维工作。 #### 五、Impala 使用注意事项 根据官方文档中的版权声明,使用 Impala 时需注意以下几点...

    impala数据库JDBC驱动集

    Impala是Cloudera公司开发的一种高性能、实时分析数据库,它是Apache Hadoop生态系统的一部分,专为大规模数据仓库和在线分析处理(OLAP)工作负载设计。JDBC(Java Database Connectivity)驱动则是连接数据库的一...

    大数据Impala架包

    标题中的“大数据Impala架包”指的是一个专为处理大数据分析而设计的工具包,它主要服务于Impala,这是一个由Cloudera开发的快速、分布式、SQL查询引擎,用于Hadoop生态系统。Impala允许用户无需将数据从HDFS或HBase...

    Impala的JDBC编程驱动

    标题中的“Impala的JDBC编程驱动”指的是Impala(一个开源的、高性能的SQL查询引擎,用于处理存储在Hadoop集群中的数据)与Java应用程序之间的桥梁,即JDBC(Java Database Connectivity)驱动。JDBC驱动是Java...

    impala驱动jar包

    Impala是Apache Hadoop生态系统中的一个高性能、实时查询系统,专为大数据分析设计。它能够直接在HDFS(Hadoop Distributed File System)和HBase上运行SQL查询,无需将数据移动到其他系统,大大提高了数据分析的...

    Impala

    **Impala概述** Impala是Cloudera公司开发的一款开源大数据查询系统,它提供了一种快速、交互式的SQL查询方式,可以直接在Hadoop集群上处理大规模的数据。Impala与Hadoop生态系统中的其他组件如HDFS(Hadoop分布式...

    JDBC-impala驱动包

    在本主题中,我们关注的是"JDBC-impala驱动包",它专门用于连接Cloudera的Impala服务,这是一个快速、高性能的SQL查询引擎,常用于大数据分析。 "JDBC-impala驱动包"包含了两个主要的JAR文件:ImpalaJDBC41.jar和...

Global site tag (gtag.js) - Google Analytics