玩转大数据系列之Apache Pig如何通过自定义UDF查询数据库（五）

qindongliang1922

浏览: 2207996 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118248

: 证道Hadoop
浏览量：126634

: 证道shell编程
浏览量：60700

: ELK修真
浏览量：71866

文章分类

社区版块

存档分类

博客分类：

oracle apache hadoop jdbc

GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标，例如淘宝，京东都有这样的衡量标准，感兴趣的朋友可以自己科普下这方面的概念知识。

当然散仙今天，并不是来解释概念的，而是记录下最近工作的一些东西，原来我们平台的GMV只有一个总的成交金额，并没有细分到各个系统的GMV的比重，比如搜索端，推荐端，移动端等等。

通过细粒度的分析各个系统所占的比重，对于指导各个系统完善和发展有一定的重要意义，这里不就深说了，下面先来看下散仙分析的搜索gmv的数据布局方式。

（1）Hadoop集群上，存储了一些非核心的数据，比如访问数据，点击数据，购物车数据，下单数据（这个是从数据库里每天同步到HDFS上的，算是备份吧）
（2）Oracle数据库中，存储了订单信息，交易信息，商品信息，支付信息等一些电商的核心数据

其实关于gmv的计算方式，在我们oracle库里，以及有一个存储过程封装了复杂的细节的处理，包括运费，折扣，不同国家，不同地域，信用用户，等等，在使用时候，只需要传入一个订单编号即可，计算出本单的gmv成交金额。

这样以来的，按照目前的数据情况，订单编号是从Hadoop集群上，一直是从搜索，点击，添加购物车，下单计算出来的，然后获取的对应的订单编号，注意这个过程中，是需要全程去爬虫数据的，因为还要算最终的GMV成交额，所以需要找到一定时期内的订单号，然后通过调用在oracle库的封装好的函数，计算出gmv，这样以来，就能够比较细跟踪各个阶段运行轨迹和成交额。

ok，业务上的分析大致如此，下面就看下，技术上如何实现，其实就是需要Pig的一个自定义UDF函数，在遍历每一行的recoder时，去查询oracle只读库，获取gmv的值，并将最终结果存储起来，以图形化方式展示。

Pig里面对UDF函数非常丰富，比较常用的是转化函数和加载存储函数，这一点在Hive里，也是如此，之前的文章中，散仙介绍过，通过自定义UDF将pig分析的结果直接存储到数据库或索引中，便于检索和发挥不同框架之间的组合优势。

核心代码如下：

package com.pig.dhgate.getgvmbyrfxno;

import java.io.IOException;

import org.apache.pig.EvalFunc;
import org.apache.pig.data.Tuple;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
/**
 * 自定义Pig UDF实现查询db计算gmv
 * **/
public class GetGmvByRfxno extends EvalFunc<Double> {
	/**日志对象*/
	static Logger log =LoggerFactory.getLogger(GetGmvByRfxno.class);
	/**数据库工具类*/
	DBTools dbtools=new DBTools();
	
	@Override
	public Double exec(Tuple input) throws IOException {
		
		if(input!=null&&input.size()!=0){
			//获取传入的订单号
			String rfxno =(String)input.get(0);
			//通过db类，查询对应的gmv并返回
			double gmv=dbtools.getGmvByRfxno(rfxno);
			return gmv;
		}else{
			//对null，空值，一律按0处理
			return 0.00;
		}
	}
}

数据库封装类：

/***
 * 数据库工具类
 * */
public class DBTools {
	
	/**日志对象*/
	static Logger log =LoggerFactory.getLogger(DBTools.class);
	
	
	private  static  Connection conn;
	private  static PreparedStatement ps;
	private   ResultSet rs;
	//从虚拟表查询函数
	private static  String  sql="select datasql.GETGMV(?) as gmv  from dual ";
	static{
		try{
		Class.forName("oracle.jdbc.driver.OracleDriver");
		conn = DriverManager.getConnection("jdbc:oracle:thin:@ip地址:1521:数据库名", "用户名", "密码");
		System.out.println("数据库连接："+conn);
		ps=conn.prepareStatement(sql);
		}catch(Exception e){
			log.error("初始化oracle驱动异常!", e);
		}
	}
	
	/**根据一个rfxno获取对应的产品的gmv
	 * **/
	public double getGmvByRfxno(String rfxno){
		try{
		ps.setString(1, rfxno);
		rs = ps.executeQuery();
		if(rs.next()){
			double gmv=rs.getDouble("gmv");
//			System.out.println("gmv是：  "+gmv);
			return gmv;
		}
		rs.close();
		}catch(Exception e){
			log.error("根据rfxno获取gmv出错!",e);
		}
		return 0.0;
	}
	}

其实，代码还是比较简单的，在这里，你可以从任何数据源获取需要的数据，而不仅仅是数据库，你也可以从redis，memcache，文件，xml，等等里获取需要组合用的数据。

遇到一个异常：在sql语句后面，不用加分号，类似下面的这样的语句，通过jdbc编译然后调用oracle是不通过的：

select datasql.GETGMV(?) as gmv  from dual;

这一点需要注意下。

最后来看下如下在pig脚本里，使用自定义的函数：
（1）使用ant打包自定义的udf函数的jar
（2）在pig脚本里，注册相关的jar包，注意如果有依赖关系，依赖的jar包，也需要注册，例如本例中的oracle的jdbc的驱动包
（3）在对应的地方，通过类的全路径名，引用此函数，完成对应的查询转换，并将新得到的一个字段，作为原始一行记录的字段扩充。

脚本如下：

--注册依赖的jar包
register /home/search/dongliang/nsconvent/checklist/ojdbc.jar
register /home/search/dongliang/nsconvent/checklist/tools.jar


--加载原有数据
m = load '/tmp/mdm/VW_TD_RFX' using PigStorage('\\x07');
--加载原有数据
n = load '/tmp/mdm/TD_RFX_PRODUCT' using PigStorage('\\x07');

--过滤出符合时间的数据

m= filter m by ToMilliSeconds(ToDate($3,'yyyy-MM-dd HH:mm:ss')) >= ToMilliSeconds(ToDate('$day 00:00:00','yyyy-MM-dd HH:mm:ss')) and ToMilliSeconds(ToDate($3
,'yyyy-MM-dd HH:mm:ss')) <= ToMilliSeconds(ToDate('$day 23:59:59','yyyy-MM-dd HH:mm:ss'))  ;

--提取相关字段，并完成计算
m = foreach m generate $0 as arfid, $1 as rfxno , com.pig.dhgate.getgvmbyrfxno.GetGmvByRfxno((chararray)$1) as gmv  , $4 as bid ;
--获取topN数据
m = limit m 10 ;
--打印输出
dump m;

想了解更多有关电商互联网公司的搜索技术和大数据技术的使用，请欢迎扫码关注微信公众号：我是攻城师（woshigcs）
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！

1
顶

0
踩

分享到：

Apache Pig字符串截取实战小例子 | 玩转大数据系列之如何给Apache Pig自定义存 ...

2015-03-12 21:06
浏览 1966
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

刘嘉怡.中期检查.doc: 刘嘉怡.中期检查.doc

COMSOL热电效应模型：基于MATLAB API的热电转换仿真与优化: 内容概要：本文详细介绍了如何使用COMSOL Multiphysics进行热电效应仿真的全过程。首先解释了热电效应的基本概念及其应用场景，如手机充电发烫、吹风机温度升高等。接着，通过具体实例展示了如何在COMSOL中建立热电模型，包括选择合适的物理场（焦耳热和热电效应）、设定材料属性（电导率、导热系数、塞贝克系数）、绘制几何形状以及设置边界条件。文中还提供了详细的MATLAB代码片段用于自动化建模流程，涵盖求解器配置、网格划分、后处理等方面的技术细节。此外，作者分享了一些常见问题的解决方案，如求解器不收敛、网格畸变等。适合人群：对热电效应感兴趣的科研人员、工程技术人员及高校学生，尤其适用于有一定COMSOL和MATLAB基础的学习者。使用场景及目标：帮助读者掌握热电效应的基本原理和COMSOL仿真技能，能够独立完成从模型构建到结果分析的完整流程。目标是提高热电转换系统的效率，优化设计参数，探索新材料的应用潜力。其他说明：文章不仅提供了理论指导，还包括大量实战经验和技术技巧，有助于解决实际建模过程中遇到的问题。

汽车内外饰模具设计规范详解：分型面、斜顶滑块及模架顶出系统的技术要点: 内容概要：本文深入探讨了汽车内外饰模具设计的关键要素，涵盖分型面设计、斜顶和滑块的应用、模架选择以及顶出系统的配置。针对每个部分，不仅提供了理论指导，还辅以Python、MATLAB等编程语言的实际代码示例，帮助理解和实施具体设计方案。例如，分型面设计强调了如何根据产品结构和外观要求确定最佳分型面位置；斜顶和滑块部分讨论了不同类型及其应用场景；模架和顶出系统则关注于结构稳定性和顶出效果的优化。适合人群：从事汽车模具设计的专业人士，尤其是希望深入了解内外饰模具设计细节的新手设计师和技术人员。使用场景及目标：适用于汽车内外饰模具设计项目，旨在提高模具设计的精度和效率，减少试错成本，确保产品质量。通过学习本文提供的技术和实践经验，能够更好地应对实际工作中遇到的各种挑战。其他说明：文中提到的代码示例和经验公式均来源于实际工程案例，具有较高的参考价值。同时，作者还分享了许多宝贵的行业经验和技巧，有助于读者快速掌握模具设计的核心技能。

python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤: python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤

【人工智能领域】DeepSeek AI深度探索平台的优势解析：多模态处理、低成本训练与广泛应用场景综述: 内容概要：DeepSeek AI是由杭州深度求索人工智能基础技术研究有限公司于2025年1月20日发布的深度探索AI技术。它具有多模态能力、多语言支持、长上下文理解、领域垂直优化、开源特性等多项技术突破，支

IIS配置phpweb服务器所需VC-redist.x64.rar: IIS配置phpweb服务器所需VC_redist.x64.rar

云南移动5G-A网业战略发展探讨 -创新领航，千帆竞发，共同迈入5G-A新时代.pptx: 云南移动5G-A网业战略发展探讨 -创新领航，千帆竞发，共同迈入5G-A新时代.pptx

C#学习之OpenCv实现模版匹配案例: 本文描述了如何使用C#基于OpenCvSharpe实现模版匹配功能，其中实现了下功能： 1、图像加载； 2、模版加载、绘制、保存功能； 3、模版匹配功能。

【软件工程与数据分析】数据结构求职面试问题汇总：涵盖链表、树结构及算法复杂度分析的实战题目解析: 内容概要：本文档汇集了CSci 235软件设计与分析II课程中关于数据结构的面试题，由Stewart Weiss教授整理。文档涵盖了广泛的数据结构主题，包括但不限于链表（如单链表、双向链表、循环链表）、二叉树（如二叉搜索树、最小高度二叉搜索树）、栈、队列等。每个问题都旨在考察求职者对不同数据结构的理解及其应用场景。例如，选择合适的数据结构实现手机通讯录功能，或设计支持撤销功能的文本编辑器。此外，文档还探讨了复杂度分析（Big-O表示法），以及如何优化特定操作的时间复杂度。最后，文档提供了额外的学习资源链接，帮助求职者进一步准备面试。适合人群：计算机科学专业的学生或有志于从事软件开发工作的求职者，特别是那些希望在技术面试中表现优异的人士。使用场景及目标：①理解并掌握常见数据结构的基本概念和特性；②学会根据不同场景选择最合适的数据结构；③掌握常见数据结构操作的时间复杂度分析；④为技术面试做充分准备，提高面试成功率。其他说明：文档中的问题不仅限于理论知识，还包括实际编码练习，建议读者在学习过程中动手实践，以加深理解和记忆。同时，文档提供的额外资源链接可以作为扩展阅读材料，帮助读者更全面地掌握相关知识。

【路径规划】基于matlab A_Star融合灰狼算法GWO求解多仓库机器人送货路径规划【含Matlab源码 13134期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

帆软本地打印插件FinePrint 8.0版本: 帆软本地打印插件FinePrint 8.0版本，适用于FineReport8

【嵌入式控制系统】基于EECS461课程的嵌入式控制技术在汽车领域的应用与发展：从基础概念到未来挑战了文档的主要内容: 内容概要：本文介绍了密歇根大学EECS 461课程——嵌入式控制系统的核心内容及其发展背景。课程旨在教授学生嵌入式控制系统的理论与实践，包括传感器和执行器接口、实时性能和安全要求、混合行为系统、分布式控制网络等方面的知识。文中特别强调了现代汽车作为嵌入式控制系统的典型应用，从1977年到2019年间，汽车技术经历了从模拟控制到微处理器控制的巨大变革，如今的汽车具备了更高效、更环保、更安全的特点。课程还涵盖了S32K144微控制器的开发环境、实验室练习（如数字I/O、PWM信号生成、虚拟墙模拟等）以及自动代码生成工具的使用。适合人群：具备一定编程基础，特别是对嵌入式系统感兴趣的本科生和研究生，尤其是电气工程、计算机科学专业的高年级学生或硕士生。使用场景及目标：①了解嵌入式控制系统的基本概念和发展历程；②掌握嵌入式控制系统的设计方法和技术手段，如实时操作系统、中断处理、网络通信协议（CAN）等；③通过实际项目操作，熟悉嵌入式硬件平台和开发工具链的应用。其他说明：随着汽车行业向智能化、自动化方向发展，对于能够开发复杂嵌入式软件的人才需求日益增长。EECS 461不仅为学生提供了扎实的技术训练，也为他们未来的职业发展打下了坚实的基础。此外，课程还反映了跨学科教育的重要性，鼓励学生打破传统学术界限，培养解决实际问题的能力。

C#与Halcon联合编程实现高效视觉几何定位与测量框架: 内容概要：本文详细介绍了如何利用C#与Halcon联合编程构建高效的视觉几何定位与测量框架。主要内容涵盖模板创建与匹配、圆测量、数据持久化以及图像采集等方面的技术细节。首先，通过创建形状模板并进行匹配，实现了工件的精确定位。接着，针对圆形物体的测量，提出了动态ROI绘制、亚像素边缘提取和稳健圆拟合的方法。此外，还讨论了模板管理和图像采集的最佳实践，确保系统的稳定性和高效性。最后，强调了Halcon对象的内存管理和错误处理机制，提供了实用的优化建议。适合人群：具备一定编程基础，尤其是对C#和Halcon有一定了解的研发人员和技术爱好者。使用场景及目标：适用于工业生产线上的自动化检测设备开发，旨在提高工件定位和尺寸测量的精度与效率。主要目标是帮助开发者掌握C#与Halcon联合编程的具体实现方法，从而构建稳定可靠的视觉检测系统。其他说明：文中提供了大量实战代码片段和调试技巧，有助于读者快速理解和应用相关技术。同时，作者分享了许多实际项目中的经验和教训，使读者能够避开常见陷阱，提升开发效率。

【人工智能领域】DeepSeek AI核心技术优势及广泛应用场景：推动全球AI创新与产业变革: 内容概要：本文深入探讨了DeepSeek AI的独特优势及其在全球AI领域的影响力。DeepSeek由中国深度求索公司开发，自2025年1月20日发布以来，凭借其卓越的性能和独特优势迅速吸引了全球关注。其核心优势包括：1) 极致成本效率，如低成本训练和高效推理；2) 强大的推理能力，涵盖多领域表现优异

php连接sqlserver之VC-redist.x64.exe: php连接sqlserver之VC_redist.x64.exe

基于Matlab/Simulink的异步电动机恒压频比与转差频率控制仿真及其实现: 内容概要：本文详细介绍了利用Matlab/Simulink进行异步电动机交流调速系统的仿真实验，主要探讨了两种控制方式：恒压频比（V/F）开环控制和转差频率闭环控制。文中不仅提供了具体的数学模型和代码片段，还展示了不同控制方式下的仿真结果对比，包括转速响应、电流波形和谐波含量等方面的表现。此外，文章深入讲解了SVPWM（空间矢量脉宽调制）的应用，强调了其相对于传统SPWM的优势，并给出了详细的参数调整技巧和注意事项。适合人群：从事电机控制系统设计的研究人员和技术人员，尤其是对Matlab/Simulink有一定基础并希望深入了解异步电动机调速系统的人群。使用场景及目标：适用于需要进行电机控制算法开发和优化的场合，旨在帮助读者掌握异步电动机调速的基本原理和具体实现方法，提高仿真的准确性和效率。其他说明：文章通过丰富的实例和图表，生动地展示了各种控制策略的特点和效果，有助于读者更好地理解和应用相关理论。同时，文中提供的调试技巧对于解决实际工程中的常见问题非常有帮助。

电动汽车等速工况续驶里程仿真及Matlab实现详解: 内容概要：本文详细介绍了如何利用Matlab进行电动汽车等速工况续驶里程的仿真。首先解释了等速工况的概念及其重要性，接着展示了具体的参数设定，如车辆质量、风阻系数、电池容量等。然后深入探讨了核心算法，包括阻力计算、功率需求、能量消耗以及SOC（剩余电量）的变化过程。文中特别强调了一些常见的陷阱和注意事项，如单位换算错误、电机效率的动态变化等。最后，通过可视化工具展示了仿真结果，并讨论了可能的改进方向，如引入NEDC工况循环和其他动态因素。适合人群：新能源汽车专业的学生、研究人员以及对电动汽车仿真感兴趣的工程师。使用场景及目标：①帮助理解和掌握电动汽车等速工况续驶里程仿真的原理和方法；②提供详细的代码实现和注释，便于学习和修改；③用于课程设计、毕业设计或其他研究项目。其他说明：本文不仅提供了完整的Matlab代码，还包括详细的参数说明和常见问题解析，确保使用者能够顺利运行并理解整个仿真过程。同时，作者还分享了许多实践经验，有助于提高仿真的准确性和实用性。

【定稿】桂林电子科技大学第七届大学生思政课社会实践优秀成果展示活动实施方案 (1).zip: 【定稿】桂林电子科技大学第七届大学生思政课社会实践优秀成果展示活动实施方案 (1).zip

直线感应电机瞬态磁场仿真教程：Maxwell 16.0与ANSYS 2020关键技术解析: 内容概要：本文详细介绍了使用Maxwell 16.0和ANSYS 2020进行直线感应电机瞬态磁场仿真的方法和技术要点。首先强调了建模前的准备工作，包括初级线圈布置、次级导体材料选择、气隙宽度等参数的确定。然后针对Maxwell 16.0用户，讲解了坐标系的选择（笛卡尔坐标系）、初级绕组绘制、运动参数设置、网格剖分优化以及边界条件的正确配置。对于ANSYS 2020用户，则着重讲述了如何利用Maxwell模块建立模型并在Mechanical中进行电磁力耦合分析，包括参数化扫描设置、气隙厚度扫描、磁密云图动态更新等技巧。此外，文中还分享了许多实用的经验和注意事项，如避免常见的参数设置错误、提高仿真精度的方法、处理推力波动等问题的具体措施。适合人群：从事电机设计与仿真的工程师、研究人员，尤其是有一定Maxwell和ANSYS使用基础的技术人员。使用场景及目标：帮助用户掌握直线感应电机瞬态磁场仿真的全流程，确保仿真结果的准确性，提升工作效率。具体应用场景包括但不限于新电机设计验证、现有电机性能优化、故障诊断等。其他说明：文中提供了大量具体的命令和脚本示例，便于读者直接应用到实际工作中。同时，作者结合自身丰富的实践经验，给出了许多宝贵的建议和警示，有助于读者避开常见陷阱，顺利完成仿真任务。

基于Matlab Simulink的交流异步电机矢量控制与SVPWM仿真建模及优化: 内容概要：本文详细介绍了如何在Matlab Simulink中构建交流异步电机的矢量控制模型及其SVPWM调制方法。首先解释了坐标变换（如Clarke和Park变换）的基本原理，并提供了具体的实现代码。接着讨论了双闭环控制策略，即电流环和速度环的设计与参数整定，强调了PI控制器的抗饱和处理以及速度环带宽的选择。对于SVPWM部分，文章对比了几种不同的调制算法，推荐了一种改进的七段式算法，提高了电压利用率并降低了谐波含量。此外，文中还分享了许多实际调试过程中遇到的问题及解决方案，如启动电流冲击、低频振荡等。适合人群：从事电力电子、电机驱动系统设计的研究人员和技术工程师，尤其是对矢量控制和SVPWM感兴趣的初学者。使用场景及目标：适用于需要深入了解交流异步电机矢量控制原理及其实现方法的人群。目标是在掌握理论基础上，能够独立搭建并优化Simulink仿真模型，从而提高实际应用中的性能表现。其他说明：随文提供的工程文件包含了完整的模型和详细的参数整定表格，便于读者进行实践操作。同时，作者还提供了一些实用的小贴士，帮助避免常见的错误和陷阱。

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论