pig处理json格式数据，取top100

scholltop

浏览: 311557 次
性别:
来自: 武汉

最近访客更多访客>>

地方疙瘩人

kodo521

猫狸粽子

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

json pig

在如下数据类型中
文件A：这里面是sequenceFile格式文件，key是long型时间戳，value是一个Text类型字符串（是JSON格式）

{"app":"bshare","data":{"ip":"1032096474","keyword":"%E6%9D%8E%E5%85%8B%E5%BC%BA%2C%E6%9D%8E%E5%85%8B%E5%BC%BA%E5%87%BA%E8%AE%BF%E6%AC%A7%E6%B4%B2%E4%B8%89%E5%9B%BD","referrer":"http://news.sina.com.cn/","title":"%E6%9D%8E%E5%85%8B%E5%BC%BA%E5%90%91%E4%BF%84%E7%BD%97%E6%96%AF%E6%97%A0%E5%90%8D%E7%83%88%E5%A3%AB%E5%A2%93%E7%8C%AE%E8%8A%B1%E5%9C%88%28%E5%9B%BE%29%7C%E6%9D%8E%E5%85%8B%E5%BC%BA_%E6%96%B0%E6%B5%AA%E6%96%B0%E9%97%BB","ua":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36","url":"http://news.sina.com.cn/c/p/2014-10-13/164030981857.shtml","uuid":"cc6dc2b3-f467-40cb-afae-c7c6154a5f54","vid":"1CH3vFsRCmQaVQG9J8yH"},"time":"2014-10-13 18:01:14","type":"view"}

文件B: 这里也是SequenceFile， key是Text型，对应的是上面数据中的vid，value是一个Text类型字符串（也是JSON格式）

{"age_group":"45-54","article_titles":["新浪新闻"],"bshare_id":"1CH01b9HB2uj7UuIP818","country_city":"UNKNOWN","device":"UNKNOWN","gender":"m","interests":["sports"],"keywords":["汽车"]}

文件C：referrer_top100.txt 记录排名前100的referrer

求：referrer_top100下的所有vid和vid属性。

pig脚本一：

REGISTER /Users/shuguo/pig/contrib/piggybank/java/piggybank.jar;
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

domain = load '/tmp/input/top_domain.txt' using PigStorage('\t') as (
 domain_text:chararray
);

domain_cookie =load '/tmp/input/gnome_simple.data' USING SequenceFileLoader('\t') as (
 time:chararray,
 log_text:chararray
);

cookie = load '/tmp/input/buzz_cookie_simple.data' USING SequenceFileLoader('\t') as (
 vid:chararray,
 cookie_value:chararray
);


domain = foreach domain generate
domain_text as  domain_text;

cookie = foreach cookie generate
vid as vid,
cookie_value as  cookie_value;

domain_cookie_a = foreach domain_cookie generate log_text;
store domain_cookie_a into '/tmp/input/domain_cookie.json' using PigStorage('\t');
log_domain_cookie = load '/tmp/input/domain_cookie.json' USING JsonLoader('app:chararray,
data(ip:chararray, keyword:chararray,referrer:chararray, title:chararray,ua:chararray,url:chararray,uuid:chararray,vid:chararray),
time:chararray,
type:chararray');

domain_cookie_b = foreach log_domain_cookie generate
vid as  vid,
title as title;

domain_cookie_c = distinct domain_cookie_b;


domain_cookie_find = join domain_cookie_c by title, domain by domain_text; 
domain_cookie_result = foreach domain_cookie_find generate domain_cookie_find::domain::domain_text as domain,domain_cookie_find::domain_cookie_c::vid as vid;

domain_result = join domain_cookie_result by vid, cookie by vid; 
domain_result = foreach domain_result generate domain_result::domain_cookie_result::domain, domain_result::domain_cookie_result::vid,domain_result::cookie::cookie_value;
store domain_result into '/tmp/input/tony_domain' using PigStorage('\t');

pig脚本二：

register /opt/pig/contrib/piggybank/java/piggybank.jar;
REGISTER /home/code/opensource/elephant-bird/pig/target/elephant-bird-pig-4.6-SNAPSHOT-jar-with-dependencies.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();
DEFINE JsonStringToMap com.twitter.elephantbird.pig.piggybank.JsonStringToMap();

genome_raw = LOAD '$INFILE1' using SequenceFileLoader() as (key:long, value:chararray); 
genome_parsed = FOREACH genome_raw GENERATE JsonStringToMap(value) as genome_data:map[];

genome_data = FOREACH genome_parsed GENERATE JsonStringToMap(genome_data#'data');
top_100_domain = LOAD '$INFILE2' as (domain:chararray);

cookie_domain = FOREACH  genome_data GENERATE json#'vid' as vid:chararray,FLATTEN(REGEX_EXTRACT(json#'url', '(http://[^/]+).*',1)) as d:chararray;

cookie_with_domain = JOIN cookie_domain BY d,top_100_domain BY  domain USING 'replicated';
cookie_with_domain_se = FOREACH cookie_with_domain GENERATE vid, domain;
cookie_with_domain_gr = GROUP cookie_with_domain_se BY vid;
cookie_with_domain_re = FOREACH cookie_with_domain_gr GENERATE $0 as vid,$1.domain as domain;

cookie_info_raw = LOAD '$INFILE3' USING com.twitter.elephantbird.pig.load.SequenceFileLoader (
    '-c com.twitter.elephantbird.pig.util.TextConverter',
    '-c com.twitter.elephantbird.pig.util.TextConverter'
) AS  (
	key:chararray,
	value:chararray
);
cookie_info = FOREACH cookie_info_raw GENERATE JsonStringToMap(value) as cookie:map[];

cookie_join = JOIN  cookie_with_domain_re BY vid, cookie_info BY cookie#'bshare_id'; 
cookie_result = FOREACH cookie_join GENERATE cookie#'bshare_id',cookie#'age_group',cookie#'country_city',cookie#'device',cookie#'gender',cookie#'interests',domain;

STORE cookie_result INTO  '$OUTFILE';

0
顶

0
踩

分享到：

JS类的建立和使用 | pig:group by之后的其它统计方法一

2014-10-20 17:40
浏览 2726
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据相关知识、数据集、项目源码及面试习题: - **Variety（多样）**：指的是数据类型多样，不仅限于结构化的数据，还包括非结构化数据（如图像、视频、音频）和半结构化数据（如XML或JSON格式的数据）。 - **Veracity（真实性）**：指的是数据的真实性和准确性...

Matlab环境下决策分类树的构建、优化与应用: 内容概要：本文详细介绍了如何利用Matlab构建、优化和应用决策分类树。首先，讲解了数据准备阶段，将数据与程序分离，确保灵活性。接着，通过具体实例展示了如何使用Matlab内置函数如fitctree快速构建决策树模型，并通过可视化工具直观呈现决策树结构。针对可能出现的过拟合问题，提出了基于成本复杂度的剪枝方法，以提高模型的泛化能力。此外，还分享了一些实用技巧，如处理连续特征、保存模型、并行计算等，帮助用户更好地理解和应用决策树。适合人群：具有一定编程基础的数据分析师、机器学习爱好者及科研工作者。使用场景及目标：适用于需要进行数据分类任务的场景，特别是当需要解释性强的模型时。主要目标是教会读者如何在Matlab环境中高效地构建和优化决策分类树，从而应用于实际项目中。其他说明：文中不仅提供了完整的代码示例，还强调了代码模块化的重要性，便于后续维护和扩展。同时，对于初学者来说，建议从简单的鸢尾花数据集开始练习，逐步掌握决策树的各项技能。

《营销调研》第7章-探索性调研数据采集.pptx: 《营销调研》第7章-探索性调研数据采集.pptx

Assignment1_search_final(1).ipynb: Assignment1_search_final(1).ipynb

美团外卖优惠券小程序美团优惠券微信小程序自带流量主模式带教程.zip: 美团优惠券小程序带举牌小人带菜谱+流量主模式，挺多外卖小程序的，但是都没有搭建教程搭建： 1、下载源码，去微信公众平台注册自己的账号 2、解压到桌面 3、打开微信开发者工具添加小程序-把解压的源码添加进去-appid改成自己小程序的 4、在pages/index/index.js文件搜流量主广告改成自己的广告ID 5、到微信公众平台登陆自己的小程序-开发管理-开发设置-服务器域名修改成

《计算机录入技术》第十八章-常用外文输入法.pptx: 《计算机录入技术》第十八章-常用外文输入法.pptx

基于Andorid的跨屏拖动应用设计.zip: 基于Andorid的跨屏拖动应用设计实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

《网站建设与维护》项目4-在线购物商城用户管理功能.pptx: 《网站建设与维护》项目4-在线购物商城用户管理功能.pptx

区块链_房屋转租系统_去中心化存储_数据防篡改_智能合约_S_1744435730.zip: 区块链_房屋转租系统_去中心化存储_数据防篡改_智能合约_S_1744435730

《计算机应用基础实训指导》实训五-Word-2010的文字编辑操作.pptx: 《计算机应用基础实训指导》实训五-Word-2010的文字编辑操作.pptx

《移动通信(第4版)》第5章-组网技术.ppt: 《移动通信(第4版)》第5章-组网技术.ppt

ABB机器人基础.pdf: ABB机器人基础.pdf

《综合布线施工技术》第9章-综合布线实训指导.ppt: 《综合布线施工技术》第9章-综合布线实训指导.ppt

最新修复版万能镜像系统源码-最终版站群利器持续更新升级: 很不错的一套站群系统源码,后台配置采集节点，输入目标站地址即可全自动智能转换自动全站采集!支持 https、支持 POST 获取、支持搜索、支持 cookie、支持代理、支持破解防盗链、支持破解防采集全自动分析,内外链接自动转换、图片地址、css、js，自动分析 CSS 内的图片使得页面风格不丢失: 广告标签，方便在规则里直接替换广告代码支持自定义标签，标签可自定义内容、自由截取、内容正则截取。可以放在模板里，也可以在规则里替换支持自定义模板，可使用标签 diy 个性模板，真正做到内容上移花接木调试模式，可观察采集性能，便于发现和解决各种错误多条采集规则一键切换，支持导入导出内置强大替换和过滤功能，标签过滤、站内外过滤、字符串替换、等等 IP 屏蔽功能，屏蔽想要屏蔽 IP 地址让它无法访问 ****高级功能*****· url 过滤功能，可过滤屏蔽不采集指定链接· 伪原创，近义词替换有利于 seo· 伪静态，url 伪静态化，有利于 seo· 自动缓存自动更新，可设置缓存时间达到自动更新，css 缓存· 支持演示有阿三源码简繁体互转· 代理 IP、伪造 IP、随机 IP、伪造 user-agent、伪造 referer 来路、自定义 cookie，以便应对防采集措施· url 地址加密转换，个性化 url，让你的 url 地址与众不同· 关键词内链功能· 还有更多功能等你发现…… 程序使用非常简单，仅需在后台输入一个域名即可建站，不限子域名，站群利器，无授权，无绑定限制，使用后台功能可对页面进行自定义修改，在程序后台开启生成功能，只要访问页面就会生成一个本地文件。当用户再次访问的时候就直接访问网站本地的页面，所以目标站点无法访问了也没关系，我们的站点依然可以访问，支持伪静态、伪原创、生成静态文件、自定义替换、广告管理、友情链接管理、自动下载 CSS 内的图。

《Approaching(Almost)any machine learning problem》中文版第11章: 【自然语言处理】文本分类方法综述：从基础模型到深度学习的情感分析系统设计

基于Andorid的下拉浏览应用设计.zip: 基于Andorid的下拉浏览应用设计实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

P2插电式混合动力系统Simulink模型：基于逻辑门限值控制策略的混动汽车仿真: 内容概要：本文详细介绍了一个原创的P2插电式混合动力系统Simulink模型，该模型基于逻辑门限值控制策略，涵盖了多个关键模块如工况输入、驾驶员模型、发动机模型、电机模型、制动能量回收模型、转矩分配模型、运行模式切换模型、档位切换模型以及纵向动力学模型。模型支持多种标准工况（WLTC、UDDS、EUDC、NEDC）和自定义工况，并展示了丰富的仿真结果，包括发动机和电机转矩变化、工作模式切换、档位变化、电池SOC变化、燃油消耗量、速度跟随和最大爬坡度等。此外，文章还深入探讨了逻辑门限值控制策略的具体实现及其效果，提供了详细的代码示例和技术细节。适合人群：汽车工程专业学生、研究人员、混动汽车开发者及爱好者。使用场景及目标：①用于教学和科研，帮助理解和掌握P2混动系统的原理和控制策略；②作为开发工具，辅助设计和优化混动汽车控制系统；③提供仿真平台，评估不同工况下的混动系统性能。其他说明：文中不仅介绍了模型的整体架构和各模块的功能，还分享了许多实用的调试技巧和优化方法，使读者能够更好地理解和应用该模型。

电力系统分布式调度中ADMM算法的MATLAB实现及其应用: 内容概要：本文详细介绍了基于ADMM（交替方向乘子法）算法在电力系统分布式调度中的应用，特别是并行（Jacobi）和串行（Gauss-Seidel）两种不同更新模式的实现。文中通过MATLAB代码展示了这两种模式的具体实现方法，并比较了它们的优劣。并行模式适用于多核计算环境，能够充分利用硬件资源，尽管迭代次数较多，但总体计算时间较短；串行模式则由于“接力式”更新机制，通常收敛更快，但在计算资源有限的情况下可能会形成瓶颈。此外，文章还讨论了惩罚系数rho的自适应调整策略以及在电-气耦合系统优化中的应用实例。适合人群：从事电力系统优化、分布式计算研究的专业人士，尤其是有一定MATLAB编程基础的研究人员和技术人员。使用场景及目标：①理解和实现ADMM算法在电力系统分布式调度中的应用；②评估并行和串行模式在不同应用场景下的性能表现；③掌握惩罚系数rho的自适应调整技巧，提高算法收敛速度和稳定性。其他说明：文章提供了详细的MATLAB代码示例，帮助读者更好地理解和实践ADMM算法。同时，强调了在实际工程应用中需要注意的关键技术和优化策略。

这篇文章详细探讨了交错并联Buck变换器的设计、仿真及其实现，涵盖了从理论分析到实际应用的多个方面（含详细代码及解释）: 内容概要：本文深入研究了交错并联Buck变换器的工作原理、性能优势及其具体实现。文章首先介绍了交错并联Buck变换器相较于传统Buck变换器的优势，包括减小输出电流和电压纹波、降低开关管和二极管的电流应力、减小输出滤波电容容量等。接着，文章详细展示了如何通过MATLAB/Simulink建立该变换器的仿真模型，包括参数设置、电路元件添加、PWM信号生成及连接、电压电流测量模块的添加等。此外，还探讨了PID控制器的设计与实现，通过理论分析和仿真验证了其有效性。最后，文章通过多个仿真实验验证了交错并联Buck变换器在纹波性能、器件应力等方面的优势，并分析了不同控制策略的效果，如P、PI、PID控制等。适合人群：具备一定电力电子基础，对DC-DC变换器特别是交错并联Buck变换器感兴趣的工程师和技术人员。使用场景及目标：①理解交错并联Buck变换器的工作原理及其相对于传统Buck变换器的优势；②掌握使用MATLAB/Simulink搭建交错并联Buck变换器仿真模型的方法；③学习PID控制器的设计与实现，了解其在电源系统中的应用；④通过仿真实验验证交错并联Buck变换器的性能，评估不同控制策略的效果。其他说明：本文不仅提供了详细的理论分析，还给出了大量可运行的MATLAB代码，帮助读者更好地理解和实践交错并联Buck变换器的设计与实现。同时，通过对不同控制策略的对比分析，为实际工程应用提供了有价值的参考。

《综合布线施工技术》第8章-综合布线工程案例.ppt: 《综合布线施工技术》第8章-综合布线工程案例.ppt

最近访客 更多访客>>