- 浏览: 2187851 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (682)
- 软件思想 (7)
- Lucene(修真篇) (17)
- Lucene(仙界篇) (20)
- Lucene(神界篇) (11)
- Solr (48)
- Hadoop (77)
- Spark (38)
- Hbase (26)
- Hive (19)
- Pig (25)
- ELK (64)
- Zookeeper (12)
- JAVA (119)
- Linux (59)
- 多线程 (8)
- Nutch (5)
- JAVA EE (21)
- Oracle (7)
- Python (32)
- Xml (5)
- Gson (1)
- Cygwin (1)
- JavaScript (4)
- MySQL (9)
- Lucene/Solr(转) (5)
- 缓存 (2)
- Github/Git (1)
- 开源爬虫 (1)
- Hadoop运维 (7)
- shell命令 (9)
- 生活感悟 (42)
- shell编程 (23)
- Scala (11)
- MongoDB (3)
- docker (2)
- Nodejs (3)
- Neo4j (5)
- storm (3)
- opencv (1)
最新评论
-
qindongliang1922:
粟谷_sugu 写道不太理解“分词字段存储docvalue是没 ...
浅谈Lucene中的DocValues -
粟谷_sugu:
不太理解“分词字段存储docvalue是没有意义的”,这句话, ...
浅谈Lucene中的DocValues -
yin_bp:
高性能elasticsearch ORM开发库使用文档http ...
为什么说Elasticsearch搜索是近实时的? -
hackWang:
请问博主,有用solr做电商的搜索项目?
Solr中Group和Facet的用法 -
章司nana:
遇到的问题同楼上 为什么会返回null
Lucene4.3开发之第八步之渡劫初期(八)
今天写了关于Pig的EvalFunc UDF函数,结果一执行,发现返回值,总是bag类型,我就纳闷了,我明明指定了返回是String类型,怎么会变成Bag类型呢?经查找,发现拷贝的问题,由于先前写的UDF函数,返回值是多个,而现在的这个是一个,所以导致,我在pig脚本里面,进行强转string类型出错,发现问题后,设置返回类型为DataType.CHARARRAY问题得以解决。
案例(一),输入值为多个参数,返回也为多个参数
package com.easy.pig; import com.easy.similar.model.ResultModel; import com.easy.similar.tools.TextBuildID; import org.apache.pig.EvalFunc; import org.apache.pig.data.*; import org.apache.pig.impl.logicalLayer.schema.Schema; import java.io.IOException; /** * Created by qindongliang on 2015/9/29. * 根据一篇内容返回md5和关键词words */ public class FingerUDF extends EvalFunc<DataBag> { /**tuple实例**/ TupleFactory mTupleFactory = TupleFactory.getInstance(); /**Bag实例*/ BagFactory mBagFactory = BagFactory.getInstance(); /**md5构建**/ TextBuildID textBuildID = new TextBuildID(); @Override public DataBag exec(Tuple tuple) throws IOException { try { DataBag output = mBagFactory.newDefaultBag(); Object o = tuple.get(0); //返回多少句子 int num_sentence = Integer.parseInt(tuple.get(1).toString()); //返回几个关键词 int num_words = Integer.parseInt(tuple.get(2).toString()); //使用指纹算法 1 还是分词算法 2 int type=Integer.parseInt(tuple.get(3).toString()); //参与扩展计算的指纹,null的直接返回空 String ext=tuple.get(4)==null?"":tuple.get(4).toString(); //设置句子数量 textBuildID.top_N_Sentence=num_sentence; //设置返回指纹数量 textBuildID.top_N_Words=num_words; //设置去重算法类型 textBuildID.type=type; ResultModel ro=textBuildID.buildID(o.toString(),ext); output.add(mTupleFactory.newTuple(ro.getMd5()));//获取md5值 output.add(mTupleFactory.newTuple(ro.getWords()));//获取指纹关键词 return output; } catch (Exception ee) { // error handling goes here ee.printStackTrace(); } return null; } /**描述scheaml形式*/ public Schema outputSchema(Schema input) { try{ Schema bagSchema = new Schema(); bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY)); return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input), bagSchema, DataType.BAG)); }catch (Exception e){ return null; } } }
案例(二),输入值为String,返回也为String
package com.easy.pig; import org.apache.pig.EvalFunc; import org.apache.pig.data.DataType; import org.apache.pig.data.Tuple; import org.apache.pig.impl.logicalLayer.schema.Schema; import java.io.IOException; /** * 处理url */ public class UrlCvUDF extends EvalFunc<String> { @Override public String exec(Tuple tuple) throws IOException { try { Object o = tuple.get(0); if(o!=null){ //判断是否为指定url开头的来源 if((o+"").startsWith("http://www.court.gov.cn")){ return "1"; }else{ return "2"; } } } catch (Exception ee) { ee.printStackTrace(); } //url 为null 则返回0 return "0"; } // /**描述scheaml形式*/ public Schema outputSchema(Schema input) { try{ Schema bagSchema = new Schema(); bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY)); //注意此处返回值要与泛型里面的对应 return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input), bagSchema, DataType.CHARARRAY)); }catch (Exception e){ e.printStackTrace(); return null; } } }
案例一的pig脚本:
--SET debug 'on' --REGISTER ./aa.jar REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar --mkdir /user/webmaster/crawldb/finger/ --rmf /user/webmaster/crawldb/finger/ mkdir /user/webmaster/search/monitor/finger-data; rmf /user/webmaster/search/monitor/finger-data; set job.name 'pig-hbase-build-index' a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum,meta:isdelete','-loadKey true '); --a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1)); -- 4个参数 0:文章内容 1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词 a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,$2),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray ; --a = foreach a generate $2 as num:chararray; --a = limit a 50; --dump a; --describe a; a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ; --describe a; store a into '/user/webmaster/search/monitor/finger-data' using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');
案例二的pig脚本:
--SET debug 'on' --REGISTER ./aa.jar REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar --mkdir /user/webmaster/crawldb/finger/ --rmf /user/webmaster/crawldb/finger/ mkdir /user/webmaster/search/monitor/finger-data; rmf /user/webmaster/search/monitor/finger-data; set job.name 'pig-hbase-build-index' a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum meta:isdelete content:url','-loadKey true '); --a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1)); -- 4个参数 0:文章内容 1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词 a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,''),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray, com.easy.pig.UrlCvUDF((chararray)$4) as source:chararray ; --a = foreach a generate $2 as num:chararray; a = limit a 11; dump a; describe a; --describe a; --a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ; --describe a; --store a into '/user/webmaster/search/monitor/finger-data' using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');
发表评论
-
Apache Tez0.7编译笔记
2016-01-15 16:33 2535目前最新的Tez版本是0.8,但还不是稳定版,所以大家还 ... -
Bug死磕之hue集成的oozie+pig出现资源任务死锁问题
2016-01-14 15:52 3841这两天,打算给现有的 ... -
Apache Pig中如何使用Replace函数
2015-11-17 18:48 1528今天分享一个小案例, ... -
Pig0.15集成Tez,让猪飞起来
2015-06-29 19:45 18291,Tez是什么? Tez是Hortonworks公司开源 ... -
CDH-Hadoop2.6+ Apache Pig0.15安装记录
2015-06-26 20:06 27371,使用CDH的hadoop里面有对应的组件Pig,但版本较低 ... -
Pig配置vim高亮
2015-05-01 17:14 1665(1) 下载文末上传的压缩包,上到对应的linux机器上,并 ... -
Hadoop2.2如何集成Apache Pig0.12.1?
2015-05-01 16:48 977散仙假设你的Hadoop环境已经安装完毕 (1)到ht ... -
Apache Pig和Solr问题笔记(一)
2015-04-02 13:35 2069记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Sol ... -
Pig使用问题总结
2015-03-29 18:39 11161,如果是a::tags#'pic'作为参数,传递给另一个函 ... -
玩转大数据系列之Apache Pig高级技能之函数编程(六)
2015-03-18 21:57 2176原创不易,转载请务必注明,原创地址,谢谢配合! http:/ ... -
Apache Pig字符串截取实战小例子
2015-03-13 17:23 2355记录一个Pig字符串截取的实战小例子: 需求如下,从下面的字 ... -
玩转大数据系列之Apache Pig如何通过自定义UDF查询数据库(五)
2015-03-12 21:06 1933GMV(一定时间内的成交 ... -
玩转大数据系列之如何给Apache Pig自定义存储形式(四)
2015-03-07 20:35 1188Pig里面内置大量的工具函数,也开放了大量的接口,来给我们开发 ... -
玩转大数据系列之Apache Pig如何与MySQL集成(三)
2015-03-07 19:43 2630上篇介绍了如何把Pig的结果存储到Solr中,那么可能就会有朋 ... -
玩转大数据系列之Apache Pig如何与Apache Solr集成(二)
2015-03-06 21:52 1533散仙,在上篇文章中介绍了,如何使用Apache Pig与Luc ... -
玩转大数据系列之Apache Pig如何与Apache Lucene集成(一)
2015-03-05 21:54 2920在文章开始之前,我们 ... -
Apache Pig学习笔记之内置函数(三)
2015-03-03 19:53 48891 简介 Pig附带了一些 ... -
Apache Pig学习笔记(二)
2015-02-13 19:23 3137主要整理了一下,pig里 ... -
你有一个好的归档习惯吗?
2015-02-11 22:01 1894备忘和扯一扯最近散仙 ... -
Apache Pig入门学习文档(一)
2015-01-20 20:28 32391,Pig的安装 (一)软件要求 (二)下载Pig ...
相关推荐
apache pig 基础及应用,urldecode row_number web日志分析 根据 用户行为 做出 简易的 相似度 判断。
在大数据处理领域,Apache Pig 是一个非常重要的工具,它提供了一种高级的脚本语言(Pig Latin)来处理大规模数据集。用户定义的函数(User Defined Functions, UDFs)是 Pig 功能的重要组成部分,允许用户扩展其...
根据给定的文件信息,我们可以深入探讨Apache Pig的性能优化及其在大数据处理中的角色与优势。首先,让我们从Apache Pig的基本概念入手。 ### Apache Pig概述 Apache Pig是一种高生产力的数据流语言和执行框架,...
pig udf 示例
FromJsonInferSchema :包装 JsonLoader 以将字符数组(字符串)字段中的 JSON 转换为 Map 的 Pig UDF。 推断输出的模式。 FromJsonWithSchema :与 FromJsonInferSchema 类似,但您提供架构。 这些工具适用于 ...
PigIp工具关于这是一组Apache Pig Java UDF实用程序,可使用, , , 和其他,帮助我们提高生产效率。执照 。快速开始这基本上是如何使用库的所有IP功能的示例 -- Register PigIpTools library ...
一组用于处理Internet域名的Apache Drill UDF UDFs 有一个UDF: suffix_extract(domain-string) :给定一个有效的互联网域名(FQDN或其他方式),这将返回一个地图的领域tld , assigned , subdomain和hostname的...
一个Apache Drill UDF,用于通过 Java库处理Twitter tweet文本。 UDFs tw_parse_tweet(string) :解析tweet文本并返回具有以下命名值的地图列: weightedLength :(整数)tweet的总长度,其中代码点按配置文件中...
2. **Java 类库**:开发 Pig UDF 时,会用到 Apache Pig 提供的 Java API,了解如何使用这些类库对于编写 UDF 很关键。 3. **JAR 文件**:编译后的 Java UDF 类需要被打包成 JAR 文件,以便在 Pig 脚本中引用。 **...
这包括编写自定义Pig UDF(用户定义函数)以及使用Java API来构建Storm拓扑。 在"apache-pig-on-storm-master"这个压缩包中,我们可以期待找到一个示例项目或库,它可能包含了以下内容: 1. **Pig Latin脚本**:...
Apache Hadoop 中的 Pig 是一个强大的分布式数据分析引擎,专门设计用于处理大规模数据集。Pig 构建在 Hadoop 平台上,通过提供一个名为 Pig Latin 的高级抽象语言,简化了在 Hadoop 上进行数据分析的过程。Pig ...
3. 社区支持:Apache Pig有一个活跃的社区,用户可以在那里提问、分享经验并找到解决问题的方案。 总之,"pig-udf:猪用UDF样本"项目为学习和实践Pig中的Java UDF提供了一个很好的起点。通过深入理解UDF的工作原理...
Apache Drill UDF用于检索和使用HTML文本 基于库。 注意:这绝对是一个在制品。 UDFs soup_read_html(url-string, timeout-ms) :此UDF要求网络可到达预期的URL目标。 给定一个URL和一个连接超时(以毫秒为单位)...
《Pig编程指南》是一本深入讲解Apache Pig的权威书籍,它主要面向大数据处理和分析领域的开发者。在本书中,作者提供了丰富的样例脚本、用户定义函数(UDF)以及数据集,帮助读者理解并掌握Pig语言的精髓。Pig是...
PDI Bridge项目则提供了一个桥梁,使得PDI的功能能够更方便地被其他应用程序,如Apache Pig的用户定义函数(UDF)和Apache Spark的函数所调用。 Apache Pig是一个用于分析大型数据集的平台,它使用自己的语言Pig ...
JPMML-猪 Apache Pig 平台 ( ) 的 PMML 评估器库。 特征 完全支持 PMML 规范版本 3.0 到 4.2。... 模型启动器类必须扩展抽象 Pig 用户定义函数 (UDF) 类org.apache.pig.EvalFunc并为以下方法提供具体实现: #exec(T
例如,在编写UDF时,需要#include "udf.h",并定义UDF的名字、参数和返回值等。 优化UDF 优化UDF需要考虑多个因素,例如,算法优化、编译优化、运行时优化等。通过优化UDF,可以提高计算效率和精度。 本资源摘要...
UDF(User Defined Functions)是ANSYS Fluent软件中的一个强大特性,允许用户自定义物理模型,以处理特定的流动问题。在本主题中,我们主要关注的是如何利用UDF来实现“质量源项”这一功能,这对于理解流体动力学中...
搜集了FLUENT-UDF使用过程中常见的一些问题,对初学者有一定帮助
通过UDF,用户能够处理那些标准求解器无法解决的复杂问题,比如非牛顿流体、多相流、化学反应等。UDF手册详细介绍了如何创建、编译和链接UDF,以及如何在Fluent环境中调用它们。 手册的第一部分通常会介绍UDF的基本...