`
朱辉辉33
  • 浏览: 28263 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

Hadoop(二)对话单的操作

阅读更多
Debug:

1、

A = LOAD '/user/hue/task.txt' USING PigStorage(' ')
AS (col1,col2,col3);
DUMP A;

//输出结果前几行示例:
(>ggsnPDPRecord(21),,)
(-->recordType(0),,)
(-->networkInitiation(1),,)
(-->servedIMSI(3),,)
(-->ggsnAddress(4),,)
(---->iPTextV4Address(2),,)
//只显示了第一列,后面两列是空的,因为第一列和第二、三列之间间隔多个空格

2、

A = LOAD '/user/hue/task.txt' USING PigStorage(',')
AS (col1,col2,col3);
DUMP A;

//输出结果前几行示例:
(>ggsnPDPRecord(21),,)
(-->recordType(0)    value: ggsnPDPRecord(19),,)
(-->networkInitiation(1)    value: false(0),,)
(-->servedIMSI(3)    value: 0x460026676534541f,,)
(-->ggsnAddress(4),,)
(---->iPTextV4Address(2)    value: 221.177.57.165,,)
(-->chargingID(5)    value: 1192448557,,)
//因为数据中没有逗号,所以每一行只是一个字段显示

3、尝试查找“-->servedIMSI(3)”

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 matches'-->servedIMSI(3)    value';
DUMP B;   

//成功运行,但是没有输出结果  

4、

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMSI(3)    value';
DUMP B;  --STORE B INTO 'output/IMSI.csv';可以另存

//成功输出了servedIMSI(3)相关的内容

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->chargingID(5)    value';
STORE B INTO 'output/chargingID.csv';

//成功导出chargingID(5)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->recordOpeningTime(13)    value';
STORE B INTO 'output/recordOpeningTime.csv';

//导出-->recordOpeningTime(13)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->duration(14)    value';
STORE B INTO 'output/duration.csv';

//导出-->duration(14)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->nodeID(18)    value';
STORE B INTO 'output/nodeID.csv';

//导出-->nodeID(18)

5、取出IMEISV的数据(含空格)

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29)    value';
C = FOREACH B GENERATE col2; --取第二个字段
DUMP C;--STORE C INTO 'output/IMEISV_2.csv';

6、取出IMEISV的数据(不含空格)

A = LOAD '/user/hue/output/IMEISV_2.csv' USING PigStorage(' ')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29)    value';
C = FOREACH B GENERATE col1; --取第一个字段
STORE C INTO 'output/IMEISV.csv';

//无论取字段一还是字段二,取出来的都是空

A = LOAD '/user/hue/output/IMEISV_2.csv' AS(col1);
B = FOREACH A GENERATE CONCAT('1', (chararray)col1);
STORE B INTO 'output/IMEISV_1.csv';

//在每一行字段前面加上一个1

A = LOAD '/user/hue/output/IMEISV_1.csv' USING PigStorage(' ') AS(col1,col2);
B = FOREACH A GENERATE col2;
STORE B INTO 'output/IMEISV.csv';

//取出正式的数据

_整理____________________________________________________________________________________________

step1

A = LOAD '/user/hue/task.txt' USING PigStorage(':')    --划分方式为引号
AS (col1,col2);     --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29)    value';
C = FOREACH B GENERATE col2; --取第二个字段
STORE C INTO 'output/IMEISV_2.csv';

step2

A = LOAD '/user/hue/output/IMEISV_2.csv' AS(col1);
B = FOREACH A GENERATE CONCAT('1', (chararray)col1);
STORE B INTO 'output/IMEISV_1.csv';

step3

A = LOAD '/user/hue/output/IMEISV_1.csv' USING PigStorage(' ') AS(col1,col2);
B = FOREACH A GENERATE col2;
STORE B INTO 'output/IMEISV.csv';

________________________________________________________________________________________________

7、

A = LOAD '/user/hue/output/IMEISV.csv' AS (col);
B = FOREACH A GENERATE SUBSTRING(col,2,8);
DUMP B;
STORE B INTO '/user/hue/output/sixnumber.csv';

//截取了前3-9位
1
1
分享到:
评论

相关推荐

    ChatGPT技术对话历史记录的保存与应用.docx

    二、保存对话历史记录的方法 为了实现对话历史记录的保存,我们可以采取多种方法,根据数据量的大小和实时查询的需求来选择适当的存储策略。对于较小规模的记录,可以使用简单的文件存储系统,它操作简便,但缺点是...

    计算机操作系统面试知识点整理.doc

    如Windows和Linux,这类操作系统是专门为个人计算机设计的,通常是联机交互式的单用户系统,提供了丰富的应用程序和图形用户界面,便于用户日常使用和娱乐。 6. **网络操作系统**: 网络操作系统用于管理网络中的...

    Nosql数据库原理与应用综合项目

    运行环境:包括Ubuntu 16.04、Windows 11操作系统,Hadoop 2.7.1大数据框架,以及Redis、MongoDB、HBase、Neo4j等NoSQL数据库。 数据集与预处理:通过Python爬取,得到14371个二手房数据,经过合并、字段调整、空值...

    sec_hdp_security_overview

    Kerberos通过加密的对话确保用户在访问服务时是经过验证的。在Java环境中,Kerberos支持被集成到JDK中,使得Java应用可以无缝地与Kerberos系统进行交互。同时,HDP也支持LDAP(轻量级目录访问协议)和Active ...

    架构师201312期

    - **UNIX编程理念**:通过与Stephen Rago的对话,深入了解UNIX环境下编程的核心理念和技术细节。 - **编程实践技巧**:分享了在UNIX环境中编写高效、稳定程序的经验和技巧。 - **未来趋势展望**:探讨了UNIX编程语言...

    大数据面试录音06.zip

    这份"大数据面试录音06.zip"包含了一次完整的面试对话,可以为应聘者提供宝贵的参考。录音中的讨论可能涵盖了多个领域,包括但不限于大数据处理技术、数据分析、云计算、数据仓库以及项目经验等。 1. **大数据处理...

    大数据面试录音02.zip

    这份名为"大数据面试录音02.zip"的压缩包文件提供了一次完整的面试对话记录,它包含一个名为"大数据面试录音02.m4a"的音频文件,这可能是面试者与面试官之间的实际交谈,对于学习和理解面试技巧以及大数据领域的专业...

    基于大数据背景下网络安全情报收集与分析技术浅析.pdf

    网络内容挖掘主要是对文本、图片等信息内容进行挖掘,网络结构挖掘则是对网站结构、链接关系等进行分析,而网络用法挖掘关注用户的日常网络行为,如服务器访问地址、浏览记录和对话记录等。这些方法能帮助安全专家更...

    AI培训:1-AI初体验-人工智能通识基础课

    这一部分还会着重介绍大数据处理平台Hadoop、Spark等在AI项目中的应用,让学员了解在数据驱动决策和模型训练方面的实际操作。 除了技术本身,本课程也注重对AI伦理和社会影响的讨论。随着AI技术的飞速发展,它的...

    阿里双11技术

    1. 飞天分布式操作系统:这是阿里巴巴自研的大规模分布式计算系统,能够将数千台甚至上万台服务器虚拟化为一台超级计算机,有效应对海量并发请求。 2. 分布式服务框架:如Dubbo和HSF,它们实现了服务的注册、发现、...

    UCKeFu-v2.1.0.zip

    2. 聊天记录模块:保存客户与客服的对话历史,可能使用MySQL等关系型数据库存储,也可能利用Elasticsearch等搜索引擎实现高效的查询。 3. 在线客服模块:提供多渠道接入,如网页、APP、微信等,可能利用RabbitMQ或...

    广州互联网金融行业自然语言处理算法工程师岗位介绍JD模板.pdf

    在互联网金融行业中,自然语言处理(NLP)算法工程师的角色至关重要,他们致力于将复杂的语言数据转化为可操作的信息,推动公司的AI业务发展。在广州这样的互联网金融中心,这个岗位的需求尤为突出。以下是针对该...

    大型私企电商公司的可行性研究报告框架.pdf(这是我自己的作业谢谢)

    1. 技术发展历史的简要回顾与国内外研究水平的现状和发展趋势:这部分内容可能涉及大数据技术的起源,例如Hadoop、Spark等关键框架的发展历程,以及国内外对于大数据在电商领域应用的研究进展。随着云计算和物联网...

    创业计划书—基于Android的大型商场智能导购系统x.zip

    1. **移动应用开发**:Android是目前全球最流行的智能手机操作系统,开发基于Android的应用意味着可以触及广泛的用户群体。开发者需要熟悉Java或Kotlin编程语言,以及Android Studio等开发工具,同时理解Android SDK...

    ApacheSpark系列技术直播第八讲微软Azure平台利用IntelAnalyticsZoo构建AI客服支持实践.pdf

    - **易于扩展**:可以无缝地在现有的 Spark/Hadoop 集群上运行,无需对集群架构进行任何更改。 - **丰富的模型库**:提供了一系列预先训练好的模型,如图像分类、对象检测、文本分类等,加快了项目的开发进度。 - **...

    2019语言与智能技术竞赛数据.rar

    在此次竞赛中,参赛者可能需要构建深度学习模型来完成诸如情感分析、语义理解、机器翻译、对话系统等任务。训练数据“train_data.json”将作为这些模型的输入,通过反向传播优化模型参数,提升模型的性能。 “train...

    智能信息系统详细制作教程

    本教程深入浅出地介绍了智能信息系统的制作过程,涵盖了从设计原理到实际操作的各个环节。 在设计原理方面,智能信息系统的核心在于数据的采集、存储、处理和应用。首先,数据采集是通过各种传感器、用户交互等方式...

    阿里云产品手册2022-2023版.pdf

    - 开源大数据平台E-MapReduce:基于Hadoop和Spark的大数据处理。 5. 智能与应用服务: - 机器学习PAI:提供算法模型,支持AI开发。 - 智能推荐AIRec:个性化推荐系统,提升用户体验。 - 智能语音交互:语音识别...

    2019年计算机学院硕士研究生招生专业目录1

    涉及到的知识点包括物联网架构、数据安全、加密算法、大数据处理框架(如Hadoop和Spark)、数据挖掘和机器学习。 2. **数据科学与大数据技术**:此方向关注如何从海量数据中提取有价值信息,涉及到的数据科学技术,...

Global site tag (gtag.js) - Google Analytics