hive wiki -UDTF

安铁辉

浏览: 246676 次
性别:
来自: 杭州

最近访客更多访客>>

723499280

happinesss

zhbliye

it.flydream

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

java json

1. UDTF介绍

UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。

2. 编写自己需要的UDTF

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。
实现initialize, process, close三个方法
UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。初始化完成后，会调用process方法，对传入的参数进行处理，可以通过forword()方法把结果返回。最后close()方法调用，对需要清理的方法进行清理。
下面是我写的一个UDTF解析json格式，比较纠结的是这个字段很多时候不满足json的定义，有｛｝值，Null一些情况，做了很多判断，不知道页面展示怎么通过的

package com.taobao.voc.hive.udtf;

public class CopyOfUDTFJson2Rows extends GenericUDTF {

	@Override
	public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {

		if (args.length != 1 && args.length != 2) {
			throw new UDFArgumentLengthException("UDTFSplitValue takes only one or two argument");
		}

		if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
			throw new UDFArgumentException("UDTFSplitValue takes string as a parameter");
		}

		ArrayList<String> fieldNames = new ArrayList<String>();
		ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();

		fieldNames.add("col");
		fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

		return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
	}

	public void process(Object[] args) throws HiveException {
		JSONObject json;
		try {
			json = new JSONObject(args[0].toString());
			if (json.has("bzwd")) {
				String bzwd = json.getString("bzwd");
				bzwd = new JSONObject(bzwd).getString("data");
				JSONObject asks = new JSONObject(bzwd);
				String result = "";
				for (int i = 0; i < asks.getJSONArray("child").length(); i++) {
					result = result + getAskAnswer(asks.getJSONArray("child").getJSONObject(i), 1, (i + 1) + "");
				}
				String[] split = result.split("\n");
				System.out.println(Thread.currentThread().getName() + " " + result);
				for (int i = 0; i < split.length; i++) {
					String[] temp = { split[i] };
					forward(temp);
				}
			} else {
				forward(new String[] { "非标准化问题", "非标准化问题", "非标准化问题", "非标准化问题" });
			}
		} catch (JSONException e) {
			e.printStackTrace();
		}

	}

	/**
	 * @param pNode
	 * json数组 level 问答层级 line 问和答属于第几条线路
	 * */
	public String getAskAnswer(JSONObject pNode, int level, String sLine) throws JSONException {
		String final_result = "";
		if (!pNode.toString().isEmpty() && pNode.has("value") && pNode.has("index")) {
			final_result = final_result + "p_id:" + pLine(sLine) + ";s_id:" + sLine + ";level:" + level + ";ask_id:"
					+ pNode.get("index") + ";answer_id:" + pNode.get("value") + "\n";
		}
		// 子节点有子节点，并且子节点是有效的答案（即value字段有值）
		if (pNode.has("child") && pNode.has("value")) {
			System.out.println(pNode.get("value"));
			for (int j = 0; j < pNode.getJSONArray("child").length(); j++) {
				if (ifContinue(pNode)) {
					final_result = final_result
							+ getAskAnswer(pNode.getJSONArray("child").getJSONObject(j), level + 1, sLine(sLine, j));
				}
			}
		}
		return final_result;
	}
//几个判断节点是否为空和获取p_id的函数省略
}

UDTF有两种使用方法，一种直接放到select后面，一种和lateral view一起使用。

输入格式为JSON
添加jar
add jar /home/taobao/dw_hive/hivelets/smoking/ext/tsa/hivesql/udf/Json2rows.jar;
CREATE TEMPORARY FUNCTION jrow  AS 'com.taobao.voc.hive.udtf.UDTFJson2Rows';
1：直接select中使用：
select jrow(ext_attrs) as format_memo from s_tpp_case_universal;
2：和lateral view一起使用：
select id,format_memo,gmt_create,gmt_modified from s_tpp_case_universal  lateral view jrow(ext_attrs) b as format_memo;
结果：
p_id:0;s_id:1;level:1;ask_id:dpxxwh1;answer_id:ppxgwt2
p_id:1;s_id:1.1;level:2;ask_id:ppxgwt1;answer_id:pptj2
p_id:1.1;s_id:1.1.1;level:3;ask_id:pptj1;answer_id:pptjtjh2
p_id:1.1.1;s_id:1.1.1.1;level:4;ask_id:pptjh1;answer_id:yyshjg2
p_id:1.1.1.1;s_id:1.1.1.1.1;level:5;ask_id:yyshjg1;answer_id:pptjbtg2
p_id:1.1.1.1.1;s_id:1.1.1.1.1.1;level:6;ask_id:shjgbtg1;answer_id:shcw2

分享到：

FP-tree 关联规则挖掘 | 没有总结就没有进步之开天辟地

2013-03-19 15:56
浏览 2974
评论(2)
分类:数据库
查看更多

2 楼安铁辉 2013-05-15

sarahtest 写道

GREAT，HIVE真心强大啊

是的，hive+函数,确实很强大

1 楼 sarahtest 2013-03-28

GREAT，HIVE真心强大啊

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Facebook的Hive开发: - [Hive Locking](http://wiki.apache.org/hadoop/Hive/Locking) #### HBase集成与存储处理器 Hive与HBase的集成是一个重要的方向，通过存储处理器（Storage Handler），可以在Hive中直接查询HBase中的数据。 - ...

西门子S7-200SMART与V20变频器基于Modbus通讯的稳定控制及应用: 内容概要：本文详细介绍了西门子S7-200SMART PLC与V20变频器通过Modbus RTU协议进行通信的具体方法和技术要点。首先阐述了硬件连接方式，强调了正确的接线和参数设置对于稳定通信的重要性。接着深入讲解了PLC程序的设计，包括Modbus主站初始化、启停控制、频率设定以及断电自恢复等功能模块的实现。此外还分享了一些实用的经验技巧，如避免通讯冲突、处理浮点数转换等问题。最后提到该方案已在实际生产环境中成功应用，表现出良好的稳定性和可靠性。适合人群：从事自动化控制系统集成的技术人员，特别是熟悉西门子PLC和变频器产品的工程师。使用场景及目标：适用于需要将旧型号PLC与变频器进行高效集成的企业，在不影响原有设备的基础上提升系统的智能化水平，减少人工干预，提高生产效率。其他说明：文中提供了大量具体的编程实例和参数配置指南，有助于读者快速掌握相关技能并应用于实际工作中。同时提醒读者注意一些常见的错误及其解决方案，帮助规避潜在的风险。

西门子PLC电机控制程序：封装好的功能块助力高效工业自动化: 内容概要：本文详细介绍了西门子PLC中用于电机控制的封装功能块，涵盖正转、反转、变频控制等多种功能。通过简化底层代码，提高编程效率和系统可靠性。文章展示了如何使用功能块实现正转、反转、变频控制、模拟量处理、故障处理等功能，并结合用户自定义数据类型（UDT）和多重背景技术，实现对大量电机的高效管理。此外，还提供了具体的代码示例，帮助读者更好地理解和应用这些功能块。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要频繁处理电机控制任务的人群。使用场景及目标：适用于需要简化电机控制编程、提高系统可靠性和可维护性的工业环境。主要目标是减少重复编码的工作量，提升开发效率，确保系统稳定运行。其他说明：文中提供的代码示例和方法不仅有助于初学者快速入门，也为有经验的工程师提供了优化现有系统的思路。通过使用这些功能块，可以在短时间内完成复杂电机控制系统的搭建和调试。

腐败感知指数（CPI）数据和各种治理指标数据集: 全球腐败感知数据（2000-2023）——3000行 33个指标关于数据集该数据集包含3000行和33列，涵盖了2000年至2023年的腐败感知指数（CPI）数据和各种治理指标。它包括国家排名、分数和其他指标，如公共部门腐败、司法腐败、贿赂指数、商业道德、民主指数、法治、政府效率、经济指标和人类发展指数。这些数据可用于：腐败趋势分析腐败对GDP、人类发展指数和治理的影响跨国比较数据可视化和机器学习模型该数据集对研究人员、数据分析师、政策制定者和对研究全球腐败趋势非常有用。

朔州市-平鲁区-街道行政区划_140603_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

脑机接口基于贝叶斯优化的FBCCA参数自动调优系统设计与实现：EEG数据处理及优化流程详解: 内容概要：本文档详细介绍了将贝叶斯优化应用于FBCCA（滤波器组公共空间模式）参数调整的完整解决方案，包括代码实现和优化流程。首先，通过MNE库加载并预处理EEG数据，进行7-30Hz的预滤波处理，提取相关事件片段。接着，定义了FBCABayesianOptimizer类，该类包含创建动态滤波器组、获取模型参数以及定义优化目标函数的方法。其中，参数空间由离散和连续参数组成，涵盖了滤波器数量、CSP组件数、起始频率、带宽、交叠率等，并通过Optuna库进行多维搜索。优化过程中采用5折交叉验证机制，同时引入智能早停策略以提高效率。最后，提供了优化结果的可视化工具，如优化轨迹图、参数重要性图和滤波器组配置图，帮助用户更好地理解和分析优化过程。适合人群：具有一定编程基础，尤其是对机器学习、脑电数据分析及贝叶斯优化感兴趣的科研人员和技术开发者。使用场景及目标：①通过动态滤波器组生成算法，捕捉频段间的过渡特征；②利用混合参数空间设计，探索不同参数组合的效果；③借助高效交叉验证机制和智能早停策略，提高优化效率；④通过可视化工具，直观展示优化过程和结果。阅读建议：此资源不仅展示了完整的代码实现，还深入探讨了FBCCA参数调整的理论基础和实际应用。建议读者在学习过程中结合理论知识与代码实践，逐步理解每个步骤的原理，并尝试调整参数以观察不同设置对优化效果的影响。同时，可根据自身硬件条件，考虑扩展建议中的GPU加速、分布式优化和在线学习等高级特性。

临汾市-古县-街道行政区划_141025_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

邯郸市-成安县--街道行政区划_130424_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

临汾市-大宁县-街道行政区划_141030_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

石家庄市-石家庄市-石家庄市-灵寿县-街道行政区划_130126_Shp数据wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接下载使用。

【预编码】基于matlab大规模多用户MIMO系统低复杂度混合预编码（Rayleigh信道）【含Matlab源码 13197期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

临汾市-安泽县-街道行政区划_141026_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

电子信息工程专业毕业论文模板_基于FPGA的CRC编码器设计.pdf: 电子信息工程专业毕业论文模板_基于FPGA的CRC编码器设计.pdf

鄂尔多斯市-达拉特旗-街道行政区划_150621_Shp数据-wgs84坐标系.rar: 鄂尔多斯市-达拉特旗-街道行政区划_150621_Shp数据-wgs84坐标系.rar

STM32与三菱PLC FX系列整合方案：高效工控系统的多功能定位源码三版本解析: 内容概要：本文详细介绍了STM32与三菱PLC FX系列整合方案，涵盖多种功能模块的实现方法及其应用场景。首先，通过寄存器级别的低层操作展示了数码管驱动、模拟量采集、定时器PWM配置等功能的具体实现方式。其次，针对定位功能进行了深入探讨，包括12轴运动控制、4路200kHz高速脉冲输出以及CAN总线扩展等高级特性。此外，文中提供了三种不同层次的代码版本供开发者选择，分别是寄存器版本、库函数版本和即将发布的HAL库版本，满足不同程度用户的开发需求。最后，强调了该方案在工业控制领域的广泛应用前景，如包装机械、立体仓库等。适合人群：具有一定嵌入式开发经验的研发人员，尤其是对STM32和三菱PLC有研究兴趣的技术爱好者。使用场景及目标：适用于需要将STM32与三菱PLC进行深度整合的工程项目，旨在提高工业控制系统的灵活性和功能性。具体目标包括但不限于实现高效的梯形图上传下载、在线监控、多轴运动控制、模拟量采集及CAN总线通信等功能。其他说明：文中不仅提供了详细的代码示例和技术细节，还分享了一些实用技巧，如寄存器操作注意事项、库函数的优势以及未来HAL库版本的发展方向。对于希望深入了解STM32与三菱PLC整合方案的读者而言，是一份不可多得的学习资料。

西门子S7-200SMART与V20变频器Modbus通讯方案及断电自恢复实现: 内容概要：本文详细介绍了西门子S7-200SMART PLC与V20变频器通过Modbus RTU进行通讯的具体实施方案，涵盖硬件接线、变频器参数设置、PLC程序编写以及触摸屏配置等方面的内容。重点解决了断电自恢复的问题，确保系统在断电重启后能够自动恢复正常运行。文中还提供了多个调试技巧和常见问题解决方案，如RS485接线注意事项、波特率设置、Modbus地址映射等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC和变频器应用的专业人士。使用场景及目标：适用于需要将PLC与变频器集成的应用场合，特别是在电力供应不稳定或存在突发断电风险的环境中。目标是提高系统的稳定性和可靠性，减少人工干预，提升生产效率。其他说明：文中提到的实际案例表明，该方案已在多个工业现场成功应用并长期稳定运行，证明了其可行性和优越性。此外，作者还分享了一些个人经验教训，帮助读者避免常见的错误和陷阱。

西门子200PLC全自动焊接系统的模块化程序设计与应用: 内容概要：本文详细介绍了基于西门子200PLC的全自动不锈钢焊接系统的程序设计及其配套的维纶触摸屏程序。项目采用了模块化设计，分为多个功能块如故障处理（FB_FaultHandling）、复位（FB_Reset）、自动模式（FB_AutoMode）和手动模式（FB_ManualMode），每个功能块职责明确，便于维护和复用。此外，还包括详细的地址分配表、电路原理图以及触摸屏界面设计，确保了系统的通用性和可维护性。文中还特别强调了故障处理模块的堆栈设计、安全回路的双冗余设计以及焊接参数的自动化计算等功能，展示了工业控制领域的最佳实践。适合人群：从事PLC编程、工业自动化控制、机械设备维护的技术人员和工程师。使用场景及目标：适用于需要设计和实施全自动焊接系统的工程项目，旨在提高生产效率、减少故障停机时间、优化焊接质量。通过学习本文，读者可以掌握模块化编程技巧、故障处理方法以及人机交互界面设计的最佳实践。其他说明：本文不仅提供了具体的代码实现和电路图，还分享了许多实际调试经验和优化建议，帮助读者更好地理解和应用这些技术和方法。

乌海市-海勃湾区-街道行政区划_150302_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

秦皇岛市-抚宁区--街道行政区划_130306_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接下载使用。

朔州市-朔州市-街道行政区划_140600_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive wiki -UDTF

评论

发表评论

相关推荐

hive UDAF之cube

hive 抽样统计

HBase 表结构浅析

hive join

重拾 HBase

hadoop 目录配额

hive-源码分析-执行计划

FP-tree 关联规则挖掘

重新安装hadoop

hive wiki -UDF

hive UDAF求平均值

MP爱的初体验

hive+python 入门

hadoop学习心得之安装01 hadoop安装

hadoop学习心得之安装01 cygwin安装

beginning

最近访客更多访客>>