将很多段逻辑sql放在一个hive文件执行终止提交的任务做法 - 后知后觉的it路 - ITeye博客

`

chengjianxiaoxue

浏览: 1318580 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jaingbei：可以通过继承FileOutputFormat来简化相关代码
自定义OutputFormat
star12396：楼主，那hbase结合hive使用，这种架构稳定不？机器的内存 ...
hbase+hive结合使用
atMe0804： ...
kafka集群搭建和使用Java写kafka生产者消费者
ztao2333： thanks
eclipse 设置自动补全快捷键
Will_forme：你好最近在使用kylin的时候有点疑问，我安装这些都没问题 ...
kylin 搭建和简单测试结果

将很多段逻辑sql放在一个hive文件执行终止提交的任务做法

博客分类：

hive

阅读更多

背景： hive工作中，将很多etl 脚本写在一起，然后整体提交，提交后突然后悔想取消

eg:

qyjssum.sh:

sudo -u hdfs hive -e "

use ste_qyjs;

清洗逻辑1.....

清洗逻辑2....

清洗逻辑3......

"

调用写法：

nohup /cloud/qyjs_sum_generate.sh > /cloud/qyjs_sum_generate.log 2>&1 &

tail -f /cloud/qyjs_sum_generate.log

一般想杀死用：

ps -ef | grep qyjs_sum_generate.sh

此时会出现三个进程描述信息和ID，

第一个是 grep这条语句的进程

第二个是上面 nohup调用grep qyjs_sum_generate.sh 的进程

第三个是这个任务提交成mr任务的进程

一般直 kill -9 第二个第三个进程即可，

但是昨天我用这种方式杀不死，现象是：

清洗逻辑1.....

清洗逻辑2....

清洗逻辑3......

杀死了这个进程后，清洗逻辑2的进程提交上去，然后杀死清洗逻辑2的清洗逻辑3的有提交上去，

具体原因我不知道，但是最后的做法就是：

hadoop job -list 查看产生的 hadoop job

然后用 hadoop job -kill jobid方式出现一个杀死一个这种方式实现完全杀死整个sh里面的任务。

分享到：

hive log的分类和所在位置 | mapreduce数量---- TODO 待整理

2016-04-01 08:03
浏览 1526
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive任务提交流程.pdf: 总的来说，Hive的MapReduce任务提交流程是一个复杂而精细的过程，涉及到SQL到任务的转化、Task的初始化和执行、以及与Hadoop集群的交互。理解这个流程有助于优化Hive查询性能，排查问题，以及更好地利用Hadoop集群...

Hive SQL 编译过程详解: 在大数据处理领域，Hive作为一个基于Hadoop的数据仓库系统，起着至关重要的作用。它允许用户使用SQL-like语言（HiveQL）对分布式存储的数据进行查询和分析。本文将深入探讨Hive SQL如何被编译成MapReduce任务，以及...

hivesql语句练习: 3.hive启动为一个服务器，来对外提供服务 bin/hiveserver2 nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err & 启动成功后，可以在别的节点上用beeline去连接 bin/beeline -u ...

基于 Antlr4 的 Hive SQL 解析.zip: 4. **实现解析器**：利用Antlr4生成的解析器类，处理输入的Hive SQL语句，构建并遍历AST，以执行语句的逻辑。 5. **测试和优化**：编写测试用例，确保解析器能够正确处理各种复杂的Hive SQL查询，同时优化性能，...

如何在python中写hive脚本: 这段代码会读取`sql.sql`文件中的Hive查询，并将结果转化为Pandas DataFrame。 2. **执行Hive语句** 如果是单条Hive查询语句，可以通过`os.system`或`os.popen`执行。例如： ```python hive_cmd = 'hive -e ...

HiveSQL编译原理: HiveSQL编译原理是大数据处理领域中的一个重要概念，它主要涉及到如何将用户提交的SQL语句转换为可执行的MapReduce或者Tez任务。在Hadoop生态系统中，Hive作为一个基于HDFS的数据仓库工具，提供了对大规模数据集进行...

SQL、Hive SQL等SQL血缘解析工具: // 具有子查询的sql String hql = "select id,name from (select id from table_1 where id={p0}) t1 inner join (select name --this is name\n from table_2) t2"; // 获取id字段的血缘 LineageNode idNode = ...

flink-sql-connector-hive-3.1.2-2.12-1.15.4.jar: flink-sql-connector-hive-3.1.2-2.12-1.15.4.jar

HIVE-SQL开发规范.docx: - 支持SQL查询，转换为MapReduce任务执行。 - 提供元数据管理，包括表和列的定义。 - 支持分区和桶，提高查询性能。 - 可扩展性，支持多种数据源和存储格式。 2. Hive SQL 语法规则在编写Hive SQL时，应遵循以下...

Hive_SQL语法大全: Hive_Sql语法详述，平时工作中遇到的问题，用于Hadoop平台的数据挖掘。

HiveSQL解析原理.docx: ### HiveSQL解析原理详解 #### 一、引言 Hive作为一款建立在Hadoop之上的数据仓库系统，...通过以上六个阶段，Hive能够有效地将用户提交的SQL查询转化为高效执行的MapReduce任务，进而实现对大规模数据集的高效处理。

部分普通sql查询在hive中的实现方式: - **背景**：在Hive中，对于单个`GROUP BY`子句下包含多个`COUNT(DISTINCT)`的情况，Hive只能支持其中一个`COUNT(DISTINCT)`。 - **示例**：下面的查询是可以在Hive中正确执行的： ```sql SELECT pv_users....

Hive内部表合并小文件Java程序: 当数据以小文件的形式存储在HDFS上时，每个文件都会启动一个Map任务，过多的Map任务会导致任务调度开销增大，降低整体处理效率。因此，合并小文件可以减少Map任务的数量，提高系统性能。 Java程序实现Hive内部表小...

HiveSQL实战题目.docx: HiveSQL 的 Load Data 语句用于将数据从文件加载到表中。下面是一个示例： load data local inpath '/export/data/hivedatas/student.csv' into table student; 这个语句将 student.csv 文件中的数据加载到 ...

SQuirrel SQL Client配置hive驱动: SQuirrel SQL Client是一款流行的开源SQL查询工具，它允许用户通过一个图形用户界面（GUI）来连接到各种类型的数据库，包括Hive。Hive是一个基于Hadoop的数据仓库系统，常用于大数据处理和分析。本篇文章将详细讲解...

Hive SQL练习题库: Hive 是一个基于 Hadoop 的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，使不熟悉 MapReduce 的用户可以利用 SQL 语言进行数据查询，大大提升了数据分析的效率。...

HIVE-SQL操作语句: ### HIVE-SQL操作语句详解 #### 一、创建表 (CREATE TABLE) 在Hive中，`CREATE TABLE` 语句用于...这些功能使得 Hive 成为了大数据处理领域中的一个重要工具。掌握这些基本操作有助于更高效地管理和分析大型数据集。

hive sql详解经典: 在大数据处理领域，Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL（称为HiveQL）查询存储在Hadoop分布式文件系统(HDFS)中的大型数据集。这篇博客深入探讨了Hive SQL的使用，帮助用户理解和掌握其核心概念...

C++解析windows注册表hive文件: 本篇将探讨如何使用C++编程语言直接解析Windows注册表的Hive文件，而不依赖于系统提供的注册表API。首先，我们需要理解Hive文件的结构。注册表Hive文件是一种二进制文件，其内部结构比较复杂，包括了键（Keys）、...

hive搭建及使用入门简介（内含PPT、各种表创建sql及hive搭建使用笔记）: Hive是大数据处理领域中的一个关键组件，它提供了一个基于Hadoop的数据仓库工具，用于查询和管理大规模数据集。这个资料包将引导你逐步了解Hive的安装配置、基本概念以及SQL操作，非常适合初学者和正在从事Hive相关...

Global site tag (gtag.js) - Google Analytics