`

beeline 连接SPARK /Hive

 
阅读更多


hiveclient所在主机的jdk 1.7_51,hive 0.12和hadoop 2.3.0是从服务器端拷贝过来的,环境变量一切OK.
执行连接报了Invalid URL的错误:
$ beeline
Beeline version 0.12.0 by Apache Hive
beeline> !connect jdbc:hive2://cloud011:10000
scan complete in 2ms
Connecting to jdbc:hive2://cloud011:10000
Enter username for jdbc:hive2://cloud011:10000:
Enter password for jdbc:hive2://cloud011:10000:
Error: Invalid URL: jdbc:hive2://cloud011:10000 (state=08S01,code=0)

开始的一段时间都在纠结这个jdbc的URL格式问题,后来在cloudra论坛上找到了一个方法,
直接调用的jdbc:hive2的驱动测试是正常的,证明CLASSPATH等环境变量没有问题。

这时候感觉很可能不是客户端的问题,矛头指向服务器端:

发现绑定的主机地址是localhost,而localhost的地址是127.0.0.1。这应该就是问题所在,从服务器本地测试:

连接成功!

下面就要把参数改一下,然后重启服务

重启服务后检查监听地址,这次是正确的了。

再次在客户端主机上测试连接:

成功。

 

 

 

Thrift JDBC Server描述

Thrift JDBC Server使用的是HIVE0.12的HiveServer2实现。能够使用Spark或者hive0.12版本的beeline脚本与JDBC Server进行交互使用。Thrift JDBC Server默认监听端口是10000。

使用Thrift JDBC Server前需要注意:

1、将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下;

2、需要在$SPARK_HOME/conf/spark-env.sh中的SPARK_CLASSPATH添加jdbc驱动的jar包

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/Hadoop/software/mysql-connector-java-5.1.27-bin.jar

Thrift JDBC Server命令使用帮助:

cd $SPARK_HOME/sbin
start-thriftserver.sh --help


复制代码
Usage: ./sbin/start-thriftserver [options] [thrift server options]
Spark assembly has been built with Hive, including Datanucleus jars on classpath
Options:
  --master MASTER_URL        spark://host:port, mesos://host:port, yarn, or local.
  --deploy-mode DEPLOY_MODE  Whether to launch the driver program locally ("client") or
                              on one of the worker machines inside the cluster ("cluster")
                              (Default: client).
  --class CLASS_NAME          Your application's main class (for Java / Scala apps).
  --name NAME                A name of your application.
  --jars JARS                Comma-separated list of local jars to include on the driver
                              and executor classpaths.
  --py-files PY_FILES        Comma-separated list of .zip, .egg, or .py files to place
                              on the PYTHONPATH for Python apps.
  --files FILES              Comma-separated list of files to be placed in the working
                              directory of each executor.

  --conf PROP=VALUE          Arbitrary Spark configuration property.
  --properties-file FILE      Path to a file from which to load extra properties. If not
                              specified, this will look for conf/spark-defaults.conf.

  --driver-memory MEM        Memory for driver (e.g. 1000M, 2G) (Default: 512M).
  --driver-java-options      Extra Java options to pass to the driver.
  --driver-library-path      Extra library path entries to pass to the driver.
  --driver-class-path        Extra class path entries to pass to the driver. Note that
                              jars added with --jars are automatically included in the
                              classpath.

  --executor-memory MEM      Memory per executor (e.g. 1000M, 2G) (Default: 1G).

  --help, -h                  Show this help message and exit
  --verbose, -v              Print additional debug output

 Spark standalone with cluster deploy mode only:
  --driver-cores NUM          Cores for driver (Default: 1).
  --supervise                If given, restarts the driver on failure.

 Spark standalone and Mesos only:
  --total-executor-cores NUM  Total cores for all executors.

 YARN-only:
  --executor-cores NUM        Number of cores per executor (Default: 1).
  --queue QUEUE_NAME          The YARN queue to submit to (Default: "default").
  --num-executors NUM        Number of executors to launch (Default: 2).
  --archives ARCHIVES        Comma separated list of archives to be extracted into the
                              working directory of each executor.

Thrift server options:
    --hiveconf <property=value>  Use value for given property

master的描述与Spark SQL CLI一致

beeline命令使用帮助:

cd $SPARK_HOME/bin
beeline --help

 

Thrift JDBC Server/beeline启动

启动Thrift JDBC Server:默认端口是10000

cd $SPARK_HOME/sbin
start-thriftserver.sh

如何修改Thrift JDBC Server的默认监听端口号?借助于--hiveconf

start-thriftserver.sh  --hiveconf hive.server2.thrift.port=14000

HiveServer2 Clients 详情参见:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients

启动beeline

cd $SPARK_HOME/bin
beeline -u jdbc:hive2://hadoop000:10000/default -n hadoop

sql脚本测试

SELECT track_time, url, session_id, referer, ip, end_user_id, city_id FROM page_views WHERE city_id = -1000 limit 10;
SELECT session_id, count(*) c FROM page_views group by session_id order by c desc limit 10;

 

 

分享到:
评论

相关推荐

    cdh6.3.2升级hive至3.x后登陆HiveServer2连接失败.doc

    cp /opt/cloudera/parcels/CDH/lib/hive/conf/hive-env.sh /opt/cloudera/parcels/CDH/lib/hive/conf/hive-env.sh.bak ``` 2. **编辑并注释掉 `export HIVE_OPTS`**: - 使用文本编辑器打开 `hive-env.sh` 文件...

    apache-hive-3.1.2-bin.tar.gz

    5. **Hive Server2**:提供了更安全、高性能的Hive服务,支持多种客户端连接方式,如Beeline、JDBC和ODBC。 Spark 3.0.0是Apache Spark的一个主要版本,它增强了性能、稳定性和兼容性。当使用Spark作为Hive的执行...

    hive安装包

    2. **Hive Server**:这是接收并执行用户查询的服务器,可以通过Hive CLI(命令行界面)或者通过远程客户端如Beeline、JDBC/ODBC连接。 3. **Hive Query Compiler**:负责将HQL转换成MapReduce任务,或者在更现代的...

    hive开发资料.pdf

    启动 Hadoop 集群,然后在 hadoop1 机器上启动 Hive,通过运行 `$HADOOP_HOME/contrib/hive/bin/hive`。这将启动 Hive 的命令行接口(CLI)。然而,这种部署方式使用了 Derby 的嵌入式模式,仅支持单用户访问,不...

    hive-3.1.2.tgz

    6. **测试连接**:使用Hive CLI或Beeline连接Hive服务,执行简单的查询验证安装是否成功。 通过Hive,大数据分析人员和数据科学家可以方便地在Hadoop集群上进行数据探索和处理,而无需深入理解底层的分布式计算原理...

    apache-hive-3.1.3-bin.tar.gz

    接着,通过 bin 目录下的 `schematool` 工具初始化元数据,然后就可以使用 `hive` 命令启动 Hive CLI 或者 `beeline` 连接 JDBC 服务执行 SQL 查询了。 Hive 支持多种数据处理操作,如创建表、加载数据、查询、聚合...

    hive安装

    - 进入Hive命令行:`beeline -u jdbc:hive2://localhost:10000/default -n username -p password` **4. 创建表和导入数据** 在Hive中,可以使用SQL语句创建表,如: ```sql CREATE TABLE IF NOT EXISTS employees...

    Hive常见问题维护手册V1.01

    1. **SSH 登录到节点**:直接登录到集群中的某个节点,然后查找日志目录,例如 `/var/log/hive` 或 `/usr/local/hive/logs`。 2. **通过 Web UI**:如果 Hive Server2 配置了 Web UI,可以在线查看日志。 3. **使用 ...

    Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

    CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark Spark Core Spark SQL Spark Streaming 五、Flink 核心概念综述 开发环境搭建 Data Source Data ...

    apache-hive-3.1.2+mysql-connector-java-5.1.32-bin.jar

    8. 启动Hive:启动Hiveserver2服务,然后通过Hive CLI或者Beeline等客户端工具与Hive交互。 在Hive中,用户可以通过HQL(Hive Query Language)编写SQL-like的查询语句,对大数据集进行复杂的分析操作,例如分组...

    hive 安装.rar(内含视频和需要的文件)

    2. 启动 Hive:使用 `hive` 命令启动 Hive 交互式 shell,或者使用 `beeline` 命令启动 Hive 的 JDBC 客户端。 3. 创建表:在 Hive shell 中,可以创建表并指定数据存储路径、分区等属性。 4. 导入数据:使用 `LOAD ...

    apache-hive-1.2.1-bin.tar.zip

    3. **启动Hive**:完成配置后,可以通过`bin/hive`命令启动Hive的命令行接口(CLI),或者通过Hue、Beeline等图形界面工具与Hive交互。 4. **测试连接**:创建一个测试表并插入数据,然后通过HQL查询验证Hive是否...

    hadoop_apache-hive-1.2.1-bin.rar linux用

    3. 创建Hive的元数据存储目录,例如`/usr/local/hive/metastore_db`,并启动元数据服务。 4. 初始化元数据库:`schematool -dbType derby -initSchema`(默认使用Derby,如果是其他数据库需要相应配置)。 5. 启动...

    apache-hive文档

    此外,Hive还可以通过HiveServer2和WebHCat(也称为Templeton)提供远程访问接口,使得用户可以通过Beeline、JDBC/ODBC等方式与Hive交互。 在实际应用中,Hive通常与其他大数据组件如Pig、Spark、Impala等协同工作...

    hive2.0源码

    4. **Hive CLI和Beeline**:Hive Command Line Interface (CLI)是传统的命令行工具,而Beeline是Hive 2.0引入的新SQL客户端,提供更好的性能和JDBC支持。 5. **SerDe(Serialization/Deserialization)**:Hive支持...

    apache-hive-2.3.2-bin.tar.gz

    4. **启动 Hive**:运行 `hive` 或 `beeline`(Hive 的命令行客户端)命令启动服务。 5. **测试**:创建一个测试表,加载数据,然后执行简单的查询验证安装是否成功。 Hive 在大数据处理领域起着至关重要的作用,...

    hive

    在实际应用中,Hive 常常与其他大数据组件一起使用,例如 HBase 提供实时查询,Impala 或 Spark SQL 提供更快的查询性能,而 Hue 或 Beeline 则作为 Hive 的交互式查询工具。 总结来说,Hive 是大数据领域中不可或...

    apache-hive-0.14.0-bin.tar.gz

    4. **Beeline**:Hive 0.14.0引入了Beeline作为新的SQL客户端,它是Hive CLI的替代品,提供了更好的性能和JDBC/ODBC支持。 5. **HiveQL**:Hive的查询语言,与SQL高度兼容,但有其特有的语法和功能,如支持动态分区...

    apache-hive-2.3.3-bin.tar.gz

    5. **Hive HCatalog**:作为元数据管理层,允许不同工具(如Pig、Spark SQL)共享Hive的元数据,促进了数据的互操作性。 6. **HQL**:Hive的查询语言,语法类似于SQL,但有其特有的一些概念,如分区、桶、动态分区...

Global site tag (gtag.js) - Google Analytics