Apache Pig学习笔记之内置函数（三）

qindongliang1922

浏览: 2207995 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118248

: 证道Hadoop
浏览量：126634

: 证道shell编程
浏览量：60700

: ELK修真
浏览量：71866

文章分类

社区版块

存档分类

博客分类：

apache hadoop pig mapreduce

1 简介
Pig附带了一些的内置函数，这些函数包括（转换函数，加载和存储函数，数学函数，字符串函数，以及包和元组函数），在Pig里面主要有二种函数分别是内置函数和自定义的UDF函数，他们区别在于
第一：内置函数不需要被注册，因为Pig本身知道他们在哪里
第二：内置函数不需要定义引用路径，因为Pig本身知道在哪里能找到他们
2 动态调用
Java里面已经存在大量的工具类库，那么在Pig里面，我们也可以通过反射来灵活的定义某一类你需要用到的函数，例如下面的例子

当前，动态调用可以被用于任何的静态函数：

 可以接收无参数或接收一些string，int，long，double，float，arrays这几种类型
 返回类型包括字符串，int，long，double，float

3 Eval函数
3.1 Avg 用法：avg（price）计算单列值的平均数，忽略Null值，在使用Group All或Group单列后可使用。
3.2 Concat 用法：contact（expression1，expression2）拼接两个字段的值为一个字符串，如果其中一个为Null，则结果用Null
3.3 Count 用法：count（expression）统计在一个bag中所有元素的数量，不包含null值统计，同时需要group前提支持。
3.4 Count_Star 用法和count类型，不同之处在于Count_Star包含null统计
3.5 Diff 用法：diff（expression1，expression2），比较一个tuple中的两个fields集合的差异性，通linux或python里面的diff函数类似

3.6 isEmpty 用法：IsEmpty（expression1）判断一个bag或map是否为空（没有数据），可以使用在filter过滤数据中
3.7 max 用法：max（expression）计算单列中最大的数值值，或者字符串的最大值（字典排序），同count一样需要Group支持
3.8 min 用法：min（expression）计算单列中最小的数值值，或者字符串的最小值（字典排序），同count一样需要Group支持
3.9 pluckTuple 用法：，给指定关系加一个字符串前缀

3.10 Size 用法：size（expression）计算任何pig字符串的大小长度，或者集合类型的的长度。
3.11 Subtract 用法：subtract（expression1，expression2），对两个bag里面的tupe做差值操作，并返回差值部分一个新的bag

3.12 Sum 用法sum（expression）对某列求和，同聚合函数都一样需要提前group。
3.13 Tokenize 用法 tokenize（expression，‘field_delimiter’）按指定分隔符拆分一句话，然后转成一系列的words，可以用来做wordcount的经典函数。
4 加载/存储函数
Load和store函数决定了数据怎样加载到pig里和怎么从pig里输出，pig提供了一系列load和store函数，当然你可以通过udf函数重写你自己定制的加载和存储函数。
4.1 处理压缩
压缩的支持是通过pig的加载和存储函数来决定的
PigStorage和TextLoader支持gzip和bzip压缩包括读和写，BinStorgae不支持压缩，为了处理gzip压缩的文件，输入和输出的文件必须要有一个.gz扩展后缀。 Gzip文件不能被切分为多个map，这意味着map的数量，就等于文件的数量。

为了处理bzip 的压缩文件，输入输出的文件也必须有一个bz或bz2的后缀名，bzip压缩可以被切分为多个map块执行。

Pig能够正确的读取和写入压缩文件，只要原始文件是正确的压缩方式，如果仅仅修改后缀或起个后缀名为.gz或.bz那么是不正确的方式，例子：

4.2 BinSotrage
能够加载和存储机器可读的格式，很少有人使用，而且有一些类型丢失bug，所以在这里就不详细介绍了
4.3 JsonLoader，JsonStorage
加载和存储json的数据的load和store函数
4.4 PigDump
存储数据使用UDF-8格式
4.5 PigStorage
加载和存储结构化的文件数据
用法： PigStorage（field_delimiter,options）
参数1：加载的分割符，必须使用单引号引起来
参数2：扩展项，使用比较少，不详细说明
此函数是pig默认的加载和存储函数，支持压缩，输入文件可以是一个文件，一个目录，或者一组目录。
复合数据类型的在PigStorage里面的存储和展示方式：
Tuple：（item1，item2，item3），空值也是有效的值存储为：（）
Bag：{code},{（tuple）}，空值有效：{}
Map：[key1#value,key2#value]，空值有效[]

4.6 TextLoader
加载非结构化数的据，使用UTF-8格式，每个产生的结果的tuple包括一个单个字段，和一行输入的文本，TextLoader也支持压缩，但是会受到一定限制，此外 TextLoader不支持存储数据。

4.7 HbaseStorage
加载和存储数据来自Hbase表
用法同PigStorage类似，需要指定分割符，和加载选项HbaseStorage（’columns’，’option’）
4.8 AvroStorage
加载和存储数据来自Avro文件
4.9 TrevniStorage
加载和存储来自trevniStorage的文件
5 数学函数
5.1 ABC 绝对值
5.2 ACOS 反余弦
5.3 ASIN 反正弦
5.4 ATAN 反正切
5.5 CBRT 立方根
5.6 CEIL 近1法取整数
5.7 COS 余弦
5.8 COSH 双曲余弦
5.9 EXP 指数
5.10 FLOOR 四舍五入取整
5.11 LOG 基于e的对数
5.12 LOG10 以10为底的对数
5.13 RANDOM 生成一个介于0.0到1.0之间的小数
5.14 ROUND 返回最近的整数
5.15 SIN 正弦
5.16 SINH 双曲正弦
5.17 SQRT 平方根
5.18 TAN 正切
5.19 TANH 双曲正切
6 字符串函数
6.1 EndSwith 用法：EndsWith(“foobar”,”bar”)返回true，以某个字符串结尾
6.2 EqualsIgnoreCase 比较两个字符串忽略大小写
6.3 IndexOf 返回要查询的字符串在目标源中的首个位置索引
6.4 Last_Index_of返回要查询的字符串在目标源中的最后一个位置索引
6.5 Lower 转小写
6.6 Ltrim 忽略左边空格
6.7 Regex_Extract 正则提取需要返回的字符串
用法：REGEX_EXTRACT (string, regex, index)，
第一参数：原始字符串
第二参数：正则表达式
第三参数：返回数据的索引下标
例子如下：
我们想要从192.168.1.5:8080中，得到ip地址，该怎么写，非常简单：
REGEX_EXTRACT (“192.168.1.5:8080”, “(.*):(.*)”, 1)，即可

6.8 Regex_Extract_All
返回所有的以指定正则表达式拆分后的tuple元组：

将会返回类似一个数组，里面装了以冒号分开的二个元素
6.9 Replace
替换一个存在的字符串成一个新的字符串
用法：REPLACE(string, 'regExp', 'newChar');
6.10 Rtrim
忽略右边空格
6.11 StartsWith
查询以某个字符串开头的函数
6.12 StrSplit
用法：STRSPLIT(string, regex, limit)
Limit代表返回元素的个数

6.13 SubString
从一个字符串中截取一个新的字符串
用法：SUBSTRING(string, startIndex, stopIndex)
通java里的字符串截取类似
6.14 Trim
忽略左右空格
6.15 Ucfirst
将每个字符串的首个字母，转换为大写
6.16 Upper
转换为大写
7 日期函数
7.1 AddDuration 指定日期上新加一个日期
7.2 CurrentTime 返回当前的时间戳
7.3 DaysBetween 返回两个日期之间的天数
7.4 GetDay 从一个日期中获取当前的日期天数
7.5 GetHour 从一个日期中获取当前的小时数
7.6 GetMilliSecond 从一个日期中获取毫秒
7.7 GetMinute从一个日期中获取分钟
7.8 GetMonth 从一个日期中获取月份
7.9 GetSecond 从一个日期中获取秒
7.10 GetWeek 从一个日期中获取周
7.11 GetWeekYear 返回一周年的日期
7.12 GetYear 从一个日期中获取年份
7.13 HoursBetween 返回两个日期间的小时数
7.14 MilliSecondsBetween 返回两个日期间的毫秒数
7.15 MinutesBetween 返回两个日期间的分钟数
7.16 MonthsBetween 返回两个日期间的月份数量
7.17 SecondsBetween 返回两个日期间的秒数
7.18 SubtractDuration 返回一个日期对象减去指定的日期后的时间
7.19 ToDate 根据参数返回一个DateTime对象
7.20 ToMilliSeconds 返回当前的毫秒数
7.21 ToString 转换日期为字符串
7.22 ToUnixTime 转换为unix格式的时间
7.23 WeeksBetween 返回两个日期直接的周数
7.24 YearsBetween 返回两个日期间的年数
8 Tuple，Bag，Map 函数
8.1 TOTUPLE
转换一个或多个字段，为一个tuple

8.2 TOBAG
转换一个或多个表达式为bag

8.3 TOMAP
转为K/V形式进入一个map集合

8.4 TOP
返回前n个元组包里面的元组，例子：

想了解更多有关电商互联网公司的搜索技术和大数据技术的使用，请欢迎扫码关注微信公众号：我是攻城师（woshigcs）
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！

1
顶

0
踩

分享到：

玩转大数据系列之Apache Pig如何与Apache L ... | 如何学好一门编程语言或技术？

2015-03-03 19:53
浏览 4915
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

刘嘉怡.中期检查.doc: 刘嘉怡.中期检查.doc

COMSOL热电效应模型：基于MATLAB API的热电转换仿真与优化: 内容概要：本文详细介绍了如何使用COMSOL Multiphysics进行热电效应仿真的全过程。首先解释了热电效应的基本概念及其应用场景，如手机充电发烫、吹风机温度升高等。接着，通过具体实例展示了如何在COMSOL中建立热电模型，包括选择合适的物理场（焦耳热和热电效应）、设定材料属性（电导率、导热系数、塞贝克系数）、绘制几何形状以及设置边界条件。文中还提供了详细的MATLAB代码片段用于自动化建模流程，涵盖求解器配置、网格划分、后处理等方面的技术细节。此外，作者分享了一些常见问题的解决方案，如求解器不收敛、网格畸变等。适合人群：对热电效应感兴趣的科研人员、工程技术人员及高校学生，尤其适用于有一定COMSOL和MATLAB基础的学习者。使用场景及目标：帮助读者掌握热电效应的基本原理和COMSOL仿真技能，能够独立完成从模型构建到结果分析的完整流程。目标是提高热电转换系统的效率，优化设计参数，探索新材料的应用潜力。其他说明：文章不仅提供了理论指导，还包括大量实战经验和技术技巧，有助于解决实际建模过程中遇到的问题。

汽车内外饰模具设计规范详解：分型面、斜顶滑块及模架顶出系统的技术要点: 内容概要：本文深入探讨了汽车内外饰模具设计的关键要素，涵盖分型面设计、斜顶和滑块的应用、模架选择以及顶出系统的配置。针对每个部分，不仅提供了理论指导，还辅以Python、MATLAB等编程语言的实际代码示例，帮助理解和实施具体设计方案。例如，分型面设计强调了如何根据产品结构和外观要求确定最佳分型面位置；斜顶和滑块部分讨论了不同类型及其应用场景；模架和顶出系统则关注于结构稳定性和顶出效果的优化。适合人群：从事汽车模具设计的专业人士，尤其是希望深入了解内外饰模具设计细节的新手设计师和技术人员。使用场景及目标：适用于汽车内外饰模具设计项目，旨在提高模具设计的精度和效率，减少试错成本，确保产品质量。通过学习本文提供的技术和实践经验，能够更好地应对实际工作中遇到的各种挑战。其他说明：文中提到的代码示例和经验公式均来源于实际工程案例，具有较高的参考价值。同时，作者还分享了许多宝贵的行业经验和技巧，有助于读者快速掌握模具设计的核心技能。

python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤: python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤

【人工智能领域】DeepSeek AI深度探索平台的优势解析：多模态处理、低成本训练与广泛应用场景综述: 内容概要：DeepSeek AI是由杭州深度求索人工智能基础技术研究有限公司于2025年1月20日发布的深度探索AI技术。它具有多模态能力、多语言支持、长上下文理解、领域垂直优化、开源特性等多项技术突破，支

IIS配置phpweb服务器所需VC-redist.x64.rar: IIS配置phpweb服务器所需VC_redist.x64.rar

云南移动5G-A网业战略发展探讨 -创新领航，千帆竞发，共同迈入5G-A新时代.pptx: 云南移动5G-A网业战略发展探讨 -创新领航，千帆竞发，共同迈入5G-A新时代.pptx

C#学习之OpenCv实现模版匹配案例: 本文描述了如何使用C#基于OpenCvSharpe实现模版匹配功能，其中实现了下功能： 1、图像加载； 2、模版加载、绘制、保存功能； 3、模版匹配功能。

【软件工程与数据分析】数据结构求职面试问题汇总：涵盖链表、树结构及算法复杂度分析的实战题目解析: 内容概要：本文档汇集了CSci 235软件设计与分析II课程中关于数据结构的面试题，由Stewart Weiss教授整理。文档涵盖了广泛的数据结构主题，包括但不限于链表（如单链表、双向链表、循环链表）、二叉树（如二叉搜索树、最小高度二叉搜索树）、栈、队列等。每个问题都旨在考察求职者对不同数据结构的理解及其应用场景。例如，选择合适的数据结构实现手机通讯录功能，或设计支持撤销功能的文本编辑器。此外，文档还探讨了复杂度分析（Big-O表示法），以及如何优化特定操作的时间复杂度。最后，文档提供了额外的学习资源链接，帮助求职者进一步准备面试。适合人群：计算机科学专业的学生或有志于从事软件开发工作的求职者，特别是那些希望在技术面试中表现优异的人士。使用场景及目标：①理解并掌握常见数据结构的基本概念和特性；②学会根据不同场景选择最合适的数据结构；③掌握常见数据结构操作的时间复杂度分析；④为技术面试做充分准备，提高面试成功率。其他说明：文档中的问题不仅限于理论知识，还包括实际编码练习，建议读者在学习过程中动手实践，以加深理解和记忆。同时，文档提供的额外资源链接可以作为扩展阅读材料，帮助读者更全面地掌握相关知识。

【路径规划】基于matlab A_Star融合灰狼算法GWO求解多仓库机器人送货路径规划【含Matlab源码 13134期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

帆软本地打印插件FinePrint 8.0版本: 帆软本地打印插件FinePrint 8.0版本，适用于FineReport8

【嵌入式控制系统】基于EECS461课程的嵌入式控制技术在汽车领域的应用与发展：从基础概念到未来挑战了文档的主要内容: 内容概要：本文介绍了密歇根大学EECS 461课程——嵌入式控制系统的核心内容及其发展背景。课程旨在教授学生嵌入式控制系统的理论与实践，包括传感器和执行器接口、实时性能和安全要求、混合行为系统、分布式控制网络等方面的知识。文中特别强调了现代汽车作为嵌入式控制系统的典型应用，从1977年到2019年间，汽车技术经历了从模拟控制到微处理器控制的巨大变革，如今的汽车具备了更高效、更环保、更安全的特点。课程还涵盖了S32K144微控制器的开发环境、实验室练习（如数字I/O、PWM信号生成、虚拟墙模拟等）以及自动代码生成工具的使用。适合人群：具备一定编程基础，特别是对嵌入式系统感兴趣的本科生和研究生，尤其是电气工程、计算机科学专业的高年级学生或硕士生。使用场景及目标：①了解嵌入式控制系统的基本概念和发展历程；②掌握嵌入式控制系统的设计方法和技术手段，如实时操作系统、中断处理、网络通信协议（CAN）等；③通过实际项目操作，熟悉嵌入式硬件平台和开发工具链的应用。其他说明：随着汽车行业向智能化、自动化方向发展，对于能够开发复杂嵌入式软件的人才需求日益增长。EECS 461不仅为学生提供了扎实的技术训练，也为他们未来的职业发展打下了坚实的基础。此外，课程还反映了跨学科教育的重要性，鼓励学生打破传统学术界限，培养解决实际问题的能力。

C#与Halcon联合编程实现高效视觉几何定位与测量框架: 内容概要：本文详细介绍了如何利用C#与Halcon联合编程构建高效的视觉几何定位与测量框架。主要内容涵盖模板创建与匹配、圆测量、数据持久化以及图像采集等方面的技术细节。首先，通过创建形状模板并进行匹配，实现了工件的精确定位。接着，针对圆形物体的测量，提出了动态ROI绘制、亚像素边缘提取和稳健圆拟合的方法。此外，还讨论了模板管理和图像采集的最佳实践，确保系统的稳定性和高效性。最后，强调了Halcon对象的内存管理和错误处理机制，提供了实用的优化建议。适合人群：具备一定编程基础，尤其是对C#和Halcon有一定了解的研发人员和技术爱好者。使用场景及目标：适用于工业生产线上的自动化检测设备开发，旨在提高工件定位和尺寸测量的精度与效率。主要目标是帮助开发者掌握C#与Halcon联合编程的具体实现方法，从而构建稳定可靠的视觉检测系统。其他说明：文中提供了大量实战代码片段和调试技巧，有助于读者快速理解和应用相关技术。同时，作者分享了许多实际项目中的经验和教训，使读者能够避开常见陷阱，提升开发效率。

【人工智能领域】DeepSeek AI核心技术优势及广泛应用场景：推动全球AI创新与产业变革: 内容概要：本文深入探讨了DeepSeek AI的独特优势及其在全球AI领域的影响力。DeepSeek由中国深度求索公司开发，自2025年1月20日发布以来，凭借其卓越的性能和独特优势迅速吸引了全球关注。其核心优势包括：1) 极致成本效率，如低成本训练和高效推理；2) 强大的推理能力，涵盖多领域表现优异

php连接sqlserver之VC-redist.x64.exe: php连接sqlserver之VC_redist.x64.exe

基于Matlab/Simulink的异步电动机恒压频比与转差频率控制仿真及其实现: 内容概要：本文详细介绍了利用Matlab/Simulink进行异步电动机交流调速系统的仿真实验，主要探讨了两种控制方式：恒压频比（V/F）开环控制和转差频率闭环控制。文中不仅提供了具体的数学模型和代码片段，还展示了不同控制方式下的仿真结果对比，包括转速响应、电流波形和谐波含量等方面的表现。此外，文章深入讲解了SVPWM（空间矢量脉宽调制）的应用，强调了其相对于传统SPWM的优势，并给出了详细的参数调整技巧和注意事项。适合人群：从事电机控制系统设计的研究人员和技术人员，尤其是对Matlab/Simulink有一定基础并希望深入了解异步电动机调速系统的人群。使用场景及目标：适用于需要进行电机控制算法开发和优化的场合，旨在帮助读者掌握异步电动机调速的基本原理和具体实现方法，提高仿真的准确性和效率。其他说明：文章通过丰富的实例和图表，生动地展示了各种控制策略的特点和效果，有助于读者更好地理解和应用相关理论。同时，文中提供的调试技巧对于解决实际工程中的常见问题非常有帮助。

电动汽车等速工况续驶里程仿真及Matlab实现详解: 内容概要：本文详细介绍了如何利用Matlab进行电动汽车等速工况续驶里程的仿真。首先解释了等速工况的概念及其重要性，接着展示了具体的参数设定，如车辆质量、风阻系数、电池容量等。然后深入探讨了核心算法，包括阻力计算、功率需求、能量消耗以及SOC（剩余电量）的变化过程。文中特别强调了一些常见的陷阱和注意事项，如单位换算错误、电机效率的动态变化等。最后，通过可视化工具展示了仿真结果，并讨论了可能的改进方向，如引入NEDC工况循环和其他动态因素。适合人群：新能源汽车专业的学生、研究人员以及对电动汽车仿真感兴趣的工程师。使用场景及目标：①帮助理解和掌握电动汽车等速工况续驶里程仿真的原理和方法；②提供详细的代码实现和注释，便于学习和修改；③用于课程设计、毕业设计或其他研究项目。其他说明：本文不仅提供了完整的Matlab代码，还包括详细的参数说明和常见问题解析，确保使用者能够顺利运行并理解整个仿真过程。同时，作者还分享了许多实践经验，有助于提高仿真的准确性和实用性。

【定稿】桂林电子科技大学第七届大学生思政课社会实践优秀成果展示活动实施方案 (1).zip: 【定稿】桂林电子科技大学第七届大学生思政课社会实践优秀成果展示活动实施方案 (1).zip

直线感应电机瞬态磁场仿真教程：Maxwell 16.0与ANSYS 2020关键技术解析: 内容概要：本文详细介绍了使用Maxwell 16.0和ANSYS 2020进行直线感应电机瞬态磁场仿真的方法和技术要点。首先强调了建模前的准备工作，包括初级线圈布置、次级导体材料选择、气隙宽度等参数的确定。然后针对Maxwell 16.0用户，讲解了坐标系的选择（笛卡尔坐标系）、初级绕组绘制、运动参数设置、网格剖分优化以及边界条件的正确配置。对于ANSYS 2020用户，则着重讲述了如何利用Maxwell模块建立模型并在Mechanical中进行电磁力耦合分析，包括参数化扫描设置、气隙厚度扫描、磁密云图动态更新等技巧。此外，文中还分享了许多实用的经验和注意事项，如避免常见的参数设置错误、提高仿真精度的方法、处理推力波动等问题的具体措施。适合人群：从事电机设计与仿真的工程师、研究人员，尤其是有一定Maxwell和ANSYS使用基础的技术人员。使用场景及目标：帮助用户掌握直线感应电机瞬态磁场仿真的全流程，确保仿真结果的准确性，提升工作效率。具体应用场景包括但不限于新电机设计验证、现有电机性能优化、故障诊断等。其他说明：文中提供了大量具体的命令和脚本示例，便于读者直接应用到实际工作中。同时，作者结合自身丰富的实践经验，给出了许多宝贵的建议和警示，有助于读者避开常见陷阱，顺利完成仿真任务。

基于Matlab Simulink的交流异步电机矢量控制与SVPWM仿真建模及优化: 内容概要：本文详细介绍了如何在Matlab Simulink中构建交流异步电机的矢量控制模型及其SVPWM调制方法。首先解释了坐标变换（如Clarke和Park变换）的基本原理，并提供了具体的实现代码。接着讨论了双闭环控制策略，即电流环和速度环的设计与参数整定，强调了PI控制器的抗饱和处理以及速度环带宽的选择。对于SVPWM部分，文章对比了几种不同的调制算法，推荐了一种改进的七段式算法，提高了电压利用率并降低了谐波含量。此外，文中还分享了许多实际调试过程中遇到的问题及解决方案，如启动电流冲击、低频振荡等。适合人群：从事电力电子、电机驱动系统设计的研究人员和技术工程师，尤其是对矢量控制和SVPWM感兴趣的初学者。使用场景及目标：适用于需要深入了解交流异步电机矢量控制原理及其实现方法的人群。目标是在掌握理论基础上，能够独立搭建并优化Simulink仿真模型，从而提高实际应用中的性能表现。其他说明：随文提供的工程文件包含了完整的模型和详细的参数整定表格，便于读者进行实践操作。同时，作者还提供了一些实用的小贴士，帮助避免常见的错误和陷阱。

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论