目的:
为impala jdbc提供统一的接口,作用参照http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala_proxy.html
步骤:
安装haproxy
选择一台非impalad的机器安装haproxy
yum install haproxy
编辑/etc/haproxy/haproxy.cfg,参考
global
# To have these messages end up in /var/log/haproxy.log you will
# need to:
#
# 1) configure syslog to accept network log events. This is done
# by adding the '-r' option to the SYSLOGD_OPTIONS in
# /etc/sysconfig/syslog
#
# 2) configure local2 events to go to the /var/log/haproxy.log
# file. A line like the following can be added to
# /etc/sysconfig/syslog
#
# local2.* /var/log/haproxy.log
#
log 127.0.0.1 local0
log 127.0.0.1 local1 notice
chroot /var/lib/haproxy
pidfile /var/run/haproxy.pid
maxconn 4000
user haproxy
group haproxy
daemon
# turn on stats unix socket
#stats socket /var/lib/haproxy/stats
#---------------------------------------------------------------------
# common defaults that all the 'listen' and 'backend' sections will
# use if not designated in their block
#
# You might need to adjust timing values to prevent timeouts.
#---------------------------------------------------------------------
defaults
mode http
log global
option httplog
option dontlognull
option http-server-close
#option forwardfor except 127.0.0.0/8
option redispatch
retries 3
maxconn 3000
timeout connect 5000
timeout client 50000
timeout server 50000
#
# This sets up the admin page for HA Proxy at port 25002.
#
listen stats :25002
balance
mode http
stats enable
stats auth username:password
# This is the setup for Impala. Impala client connect to load_balancer_host:25003.
# HAProxy will balance connections among the list of servers listed below.
# The list of Impalad is listening at port 21000 for beeswax (impala-shell) or original ODBC driver.
# For JDBC or ODBC version 2.x driver, use port 21050 instead of 21000.
listen impala :25003
mode tcp
option tcplog
balance leastconn
server cdhslave1 cdhslave1.yeahmobi.com:21050 check
server cdhslave2 cdhslave2.yeahmobi.com:21050 check
server cdhslave3 cdhslave3.yeahmobi.com:21050 check
启动haproxy
haproxy -f /etc/haproxy/haproxy.cfg
关闭service haproxy stop
impala配置
impala daemon group->advanced->Impala Daemon Command Line Argument Advanced Configuration Snippet (Safety Valve)
-principal=impala/cdhmaster.yeahmobi.com@YEAHMOBI.COM
-be_principal=impala/_HOST@YEAHMOBI.COM
测试
private static final String IMPALAD_HOST = "cdhmaster.yeahmobi.com";//haproxy server的hostname
private static final String IMPALAD_JDBC_PORT = "25003";//端口选择haproxy的代理端口
private static final String CONNECTION_URL = "jdbc:hive2://" + IMPALAD_HOST + ':' + IMPALAD_JDBC_PORT + "/data_system;user=hive;password=111111";//ldap用户及密码
使用时发现,impala-shell不好使了,不能正常连接,去除如上粗体步骤后,impala-shell正常,jdbc HAproxy也正常使用。
分享到:
相关推荐
impala的jdbc包,jdbc官方版本2.6.4,验证可以使用。目前最新版本了。
1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现, HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权...
管理节点负责集群管理任务,如HDFS NameNode HA、YARN RM HA、HBase Master HA、Hive HA、Kudu Master HA、Impala、Spark、Zookeeper、MySQL HA等。对于管理节点,建议的配置包括两路Intel®至强处理器、6核/CPU、...
接着详细介绍了Hive的系统架构,包括基本组成模块、工作原理和几种外部访问方式,描述了Hive的具体应用及Hive HA原理;同时,介绍了新一代开源大数据分析引擎Impala及其与Hive的比较分析;最后,以单词统计为例,...
典型的主节点包括NameNode、ResourceManager、JobHistoryServer、HBase Master、Hive Server 2、Hive Metastore等,而数据节点包括DataNode、NodeManager、Impala State Store、Impala Category Server、Impala ...
【大数据基础入门培训课程——基于Hadoop的数据仓库Hive】模块11主要涵盖了Hive的基础知识,包括其系统架构、工作原理、高可用性(HA)原理,以及相关的数据分析工具Impala,还有Hive的编程实践。以下是这些知识点的...
这份配置说明将详细介绍如何在Cloudera Data Hub (CDH)环境中实现高可用性,涵盖HDFS HA以及CDH其他组件如Hive Metastore、Hue和Impala与HDFS HA的集成。 1. **简介** Apache Hadoop集群常常承载着各种用户运行的...
1. HDFS的HA是指高可用性(High Availability),即使某个节点出现故障,也不会影响整个系统的运行。 2. YARN(Yet Another Resource Negotiator)是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。...
11. Presto、Hive和Impala之间不能相互访问,意味着不能共享元数据或查询彼此的数据,每个系统都是独立运行的。 12. 在部署Presto节点时,必须安装Kerberos客户端。这是因为在Presto中启用Kerberos认证后,为了保证...
此外,还会介绍Hive的系统架构、工作原理、高可用性(HA)机制以及与Hadoop生态系统中的其他组件的关系。最后,通过实际的编程实践和企业应用案例,来说明Hive的实际部署和应用情况。 数据仓库概念起源于面向主题的...
- 配置Hive服务器2/Impala的代理。 - 管理 - 进行基本和高级配置,有效管理Hadoop集群。 - 维护和修改集群,以支持企业的日常运维。 - 重新平衡集群。 - 设置针对磁盘使用过度的告警。 - 定义和安装机架拓扑...
此外,通过HDFS的HA和YARN的ResourceManager HA,可以实现关键组件的高可用性,保证集群稳定性。 11. **持续集成与升级**:Cloudera Manager还提供了版本管理和自动升级功能,确保集群始终运行在最新稳定版本,同时...
hive metastore是hive的元数据管理服务,实际应用中很多第三方框架需要访问metastore服务,如spark,impala等。同样hive metastore也提供了java接口。 使用 import org.apache.hadoop.hive.conf.HiveConf; import org...
\n\n8.5 Impala\nImpala是Cloudera开发的一个MPP(大规模并行处理)查询引擎,它提供了比Hive更快的查询速度,因为Impala直接在HDFS或HBase上执行查询,无需经过MapReduce阶段。\n\n8.6 Hive编程实践\n在实际应用中...
- **HA机制**:为了提高Hadoop集群的可用性,引入了HA(High Availability)机制。该机制通过配置两个NameNode节点(一个Active,一个Standby)来实现热备份,当Active NameNode发生故障时,Standby NameNode可以...
Hadoop2.0引入了Namenode HA(高可用性)和Federation,前者通过Active/Standby模式避免单点故障,后者通过将元数据划分为多个命名空间,减轻单个NameNode的压力,实现集群的横向扩展。 数据一致性在Hadoop中至关...
Hue组件包括HDFS、Hive、Solr、Impala、Spark、Pig、Oozie、Hbase、MR(MR1/MR2-Yarn)、Sqoop2、Zookeeper等,提供了一个完整的大数据解决方案。 Hue的使用 Hue提供了多种使用方式,包括文件浏览、Job浏览、Beeswax...
HDFS的缓存机制允许HDFS数据被缓存到本地磁盘或其他计算框架中,比如Spark或Impala,以此提升数据的读取速度,特别是对于那些频繁访问的数据。数据缓存可以显著减少读取延迟,提高查询性能。HDFS的缓存管理还支持从...
在规划阶段,需要考虑集群中将要使用的Hadoop服务,如ZooKeeper、HDFS、MapReduce、Inceptor(可能指的是Impala)、HBase和Hive等。根据业务需求分配不同的节点角色,例如NameNode、DataNode、TaskTracker等。此外,...