`
lookqlp
  • 浏览: 344648 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

impala HA

阅读更多
目的:
为impala jdbc提供统一的接口,作用参照http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala_proxy.html

步骤:
安装haproxy
选择一台非impalad的机器安装haproxy
yum install haproxy
编辑/etc/haproxy/haproxy.cfg,参考
global
    # To have these messages end up in /var/log/haproxy.log you will
    # need to:
    #
    # 1) configure syslog to accept network log events. This is done
    # by adding the '-r' option to the SYSLOGD_OPTIONS in
    # /etc/sysconfig/syslog
    #
    # 2) configure local2 events to go to the /var/log/haproxy.log
    # file. A line like the following can be added to
    # /etc/sysconfig/syslog
    #
    # local2.* /var/log/haproxy.log
    #
    log 127.0.0.1 local0
    log 127.0.0.1 local1 notice
    chroot /var/lib/haproxy
    pidfile /var/run/haproxy.pid
    maxconn 4000
    user haproxy
    group haproxy
    daemon

    # turn on stats unix socket
    #stats socket /var/lib/haproxy/stats

#---------------------------------------------------------------------
# common defaults that all the 'listen' and 'backend' sections will
# use if not designated in their block
#
# You might need to adjust timing values to prevent timeouts.
#---------------------------------------------------------------------
defaults
    mode http
    log global
    option httplog
    option dontlognull
    option http-server-close
    #option forwardfor except 127.0.0.0/8
    option redispatch
    retries 3
    maxconn 3000
    timeout connect 5000
    timeout client 50000
    timeout server 50000

#
# This sets up the admin page for HA Proxy at port 25002.
#
listen stats :25002
    balance
    mode http
    stats enable
    stats auth username:password

# This is the setup for Impala. Impala client connect to load_balancer_host:25003.
# HAProxy will balance connections among the list of servers listed below.
# The list of Impalad is listening at port 21000 for beeswax (impala-shell) or original ODBC driver.
# For JDBC or ODBC version 2.x driver, use port 21050 instead of 21000.
listen impala :25003
    mode tcp
    option tcplog
    balance leastconn
    server cdhslave1 cdhslave1.yeahmobi.com:21050 check
    server cdhslave2 cdhslave2.yeahmobi.com:21050 check
    server cdhslave3 cdhslave3.yeahmobi.com:21050 check

启动haproxy
haproxy -f /etc/haproxy/haproxy.cfg
关闭service haproxy stop
impala配置
impala daemon group->advanced->Impala Daemon Command Line Argument Advanced Configuration Snippet (Safety Valve)
-principal=impala/cdhmaster.yeahmobi.com@YEAHMOBI.COM
-be_principal=impala/_HOST@YEAHMOBI.COM

测试
private static final String IMPALAD_HOST = "cdhmaster.yeahmobi.com";//haproxy server的hostname
private static final String IMPALAD_JDBC_PORT = "25003";//端口选择haproxy的代理端口
private static final String CONNECTION_URL = "jdbc:hive2://" + IMPALAD_HOST + ':' + IMPALAD_JDBC_PORT + "/data_system;user=hive;password=111111";//ldap用户及密码

使用时发现,impala-shell不好使了,不能正常连接,去除如上粗体步骤后,impala-shell正常,jdbc HAproxy也正常使用。
分享到:
评论

相关推荐

    impala jdbc41 jar包,版本2.6.4

    impala的jdbc包,jdbc官方版本2.6.4,验证可以使用。目前最新版本了。

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程

    1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现, HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权...

    CDH软硬件配置建议

    管理节点负责集群管理任务,如HDFS NameNode HA、YARN RM HA、HBase Master HA、Hive HA、Kudu Master HA、Impala、Spark、Zookeeper、MySQL HA等。对于管理节点,建议的配置包括两路Intel®至强处理器、6核/CPU、...

    第14章 基于Hadoop的数据仓库Hive

    接着详细介绍了Hive的系统架构,包括基本组成模块、工作原理和几种外部访问方式,描述了Hive的具体应用及Hive HA原理;同时,介绍了新一代开源大数据分析引擎Impala及其与Hive的比较分析;最后,以单词统计为例,...

    03-Yarn安装部署及资源队列使用.pdf

    典型的主节点包括NameNode、ResourceManager、JobHistoryServer、HBase Master、Hive Server 2、Hive Metastore等,而数据节点包括DataNode、NodeManager、Impala State Store、Impala Category Server、Impala ...

    厦门大学林子雨版大数据基础入门培训课程 教师培训交流讲义-模块11-基于Hadoop的数据仓库Hive 共48页.ppt

    【大数据基础入门培训课程——基于Hadoop的数据仓库Hive】模块11主要涵盖了Hive的基础知识,包括其系统架构、工作原理、高可用性(HA)原理,以及相关的数据分析工具Impala,还有Hive的编程实践。以下是这些知识点的...

    Cloudera产品高可用性配置说明1

    这份配置说明将详细介绍如何在Cloudera Data Hub (CDH)环境中实现高可用性,涵盖HDFS HA以及CDH其他组件如Hive Metastore、Hue和Impala与HDFS HA的集成。 1. **简介** Apache Hadoop集群常常承载着各种用户运行的...

    大数据开发基础-期末考试题库.doc

    1. HDFS的HA是指高可用性(High Availability),即使某个节点出现故障,也不会影响整个系统的运行。 2. YARN(Yet Another Resource Negotiator)是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。...

    presto-kerberos

    11. Presto、Hive和Impala之间不能相互访问,意味着不能共享元数据或查询彼此的数据,每个系统都是独立运行的。 12. 在部署Presto节点时,必须安装Kerberos客户端。这是因为在Presto中启用Kerberos认证后,为了保证...

    第14章-基于Hadoop的数据仓库Hive.pdf

    此外,还会介绍Hive的系统架构、工作原理、高可用性(HA)机制以及与Hadoop生态系统中的其他组件的关系。最后,通过实际的编程实践和企业应用案例,来说明Hive的实际部署和应用情况。 数据仓库概念起源于面向主题的...

    CCA131考试大纲附21真题模拟及答案

    - 配置Hive服务器2/Impala的代理。 - 管理 - 进行基本和高级配置,有效管理Hadoop集群。 - 维护和修改集群,以支持企业的日常运维。 - 重新平衡集群。 - 设置针对磁盘使用过度的告警。 - 定义和安装机架拓扑...

    CDH5在线安装包

    此外,通过HDFS的HA和YARN的ResourceManager HA,可以实现关键组件的高可用性,保证集群稳定性。 11. **持续集成与升级**:Cloudera Manager还提供了版本管理和自动升级功能,确保集群始终运行在最新稳定版本,同时...

    hive metastore java api使用

    hive metastore是hive的元数据管理服务,实际应用中很多第三方框架需要访问metastore服务,如spark,impala等。同样hive metastore也提供了java接口。 使用 import org.apache.hadoop.hive.conf.HiveConf; import org...

    Chapter8-厦门大学-林子雨-大数据技术原理与应用-第8讲-基于Hadoop的数据仓库Hive(中国大学MOOC2018年

    \n\n8.5 Impala\nImpala是Cloudera开发的一个MPP(大规模并行处理)查询引擎,它提供了比Hive更快的查询速度,因为Impala直接在HDFS或HBase上执行查询,无需经过MapReduce阶段。\n\n8.6 Hive编程实践\n在实际应用中...

    大数据及其常用组件介绍

    - **HA机制**:为了提高Hadoop集群的可用性,引入了HA(High Availability)机制。该机制通过配置两个NameNode节点(一个Active,一个Standby)来实现热备份,当Active NameNode发生故障时,Standby NameNode可以...

    hadoop和yarn原理笔记.docx

    Hadoop2.0引入了Namenode HA(高可用性)和Federation,前者通过Active/Standby模式避免单点故障,后者通过将元数据划分为多个命名空间,减轻单个NameNode的压力,实现集群的横向扩展。 数据一致性在Hadoop中至关...

    大数据Hue架构原理.pdf

    Hue组件包括HDFS、Hive、Solr、Impala、Spark、Pig、Oozie、Hbase、MR(MR1/MR2-Yarn)、Sqoop2、Zookeeper等,提供了一个完整的大数据解决方案。 Hue的使用 Hue提供了多种使用方式,包括文件浏览、Job浏览、Beeswax...

    巴豆大数据团队讲师课件HDFS.pdf

    HDFS的缓存机制允许HDFS数据被缓存到本地磁盘或其他计算框架中,比如Spark或Impala,以此提升数据的读取速度,特别是对于那些频繁访问的数据。数据缓存可以显著减少读取延迟,提高查询性能。HDFS的缓存管理还支持从...

    大数据技术基础培训-Hadoop集群管理与维护.pptx

    在规划阶段,需要考虑集群中将要使用的Hadoop服务,如ZooKeeper、HDFS、MapReduce、Inceptor(可能指的是Impala)、HBase和Hive等。根据业务需求分配不同的节点角色,例如NameNode、DataNode、TaskTracker等。此外,...

Global site tag (gtag.js) - Google Analytics