`

bash-文件数据分析案例hadoop

 
阅读更多

在学习hadoop的过程中,看到一个bash脚本使用awk分析文件数据的程序,觉得有使用意义,先单独记录下,以备以后需求和参考。

 

max_temperature.sh
#!/usr/bin/env bash
 
for year in `ls *.gz`
do
  echo -ne `basename $year.gz`"\t"
  gunzip -c $year | \
        awk '{temp = substr($0,88,5) + 0;
              q = substr($0,93,1);
              if(temp!=9999 && q ~ /[01459]/ && temp > max) max=temp}
        END {print max}'
done
 
分享到:
评论

相关推荐

    spark-2.3.4-bin-hadoop2.7.tgz

    在本案例中,我们关注的是Spark的2.3.4版本,它预编译为与Hadoop 2.7兼容的版本,打包成"spark-2.3.4-bin-hadoop2.7.tgz"的压缩文件。这个压缩包包含了运行Spark所需的所有组件,包括Java库、Python库(pyspark)、...

    实验1 安装Hadoop.doc

    根据给定文件的信息,我们可以总结出以下几个重要的知识点: ...综上所述,通过本次实验,学生不仅能够学会如何在Linux虚拟机中搭建Hadoop集群,还能掌握Hadoop的基本使用技巧,为进一步学习大数据分析打下坚实基础。

    hadoop-shell(第四章)-带书签高清pdf文字版

    - 提供实际案例,展示如何在Shell环境中解决常见的Hadoop问题,如数据迁移、数据清理、数据分析等。 总结,第四章的《Hadoop Shell实战指南》深入浅出地介绍了Hadoop Shell的使用,包括基础操作、数据处理、脚本...

    大数据开发教程、案例及相关项目

    - **数据分析流程**: - 利用MapReduce或Spark对数据进行聚合、过滤等操作,提取有价值的信息。 - 可以利用Spark SQL进行复杂的查询操作,或者使用MLlib库进行机器学习模型训练,进一步挖掘用户行为模式。 - **...

    hadoop调试工具hadoop.dll和hadoop.exp和winutils.exe

    在Hadoop的案例中,hadoop.dll包含了Hadoop分布式文件系统(HDFS)和MapReduce框架的部分功能,使得开发者能够在Windows环境下进行分布式计算和数据处理。当遇到错误或性能问题时,调试这个DLL文件可以帮助找出问题...

    ubuntu9.10上部署Hadoop

    虽然原文没有给出具体的相关工作内容,但可以推测这部分可能会涉及其他研究者使用Hadoop进行大规模数据分析的成功案例,以及这些案例中所采用的方法和技术。 #### Hadoop简介 Hadoop是一个开源软件框架,用于...

    hadoop2.7.3+hive1.2.1+spark2.0.1性能测试

    ### Hadoop 2.7.3 + Hive 1.2.1 + Spark 2.0.1 性能测试知识点 #### 一、环境搭建与配置 **1.1 主机环境配置** - **修改主机名称:** - 通过编辑`/etc/sysconfig/...这为后续的大数据分析应用提供了坚实的基础。

    Hadoop安装部署及教学

    4. 修改配置文件:如`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`和`yarn-site.xml`,配置Hadoop的运行参数,如NameNode和DataNode地址等。 5. 初始化HDFS:使用`hdfs namenode -format`命令格式化NameNode。...

    Apache Hadoop2.x 安装入门详解 PDF

    1. 日志查看:Hadoop提供了一套日志收集和分析机制,方便排查问题。 2. Web UI:通过访问NameNode和ResourceManager的Web界面监控Hadoop集群状态。 学习Hadoop 2.x的安装不仅涉及技术操作,更需要理解其背后的...

    hadoop shell操作与程式开发

    3. **實做四.docx**:可能是系列教程的一部分,重点讲述一个具体的Hadoop实现,比如数据分析或数据清洗的案例。 通过深入学习这些材料,读者不仅可以掌握Hadoop的Shell操作,还能理解如何编写和优化MapReduce程序,...

    7.Hadoop入门进阶课程_第7周_Pig介绍、安装与应用案例.pdf

    根据提供的文档信息,这是一门关于Hadoop生态系统的入门级课程中的第七周内容,主要介绍了Pig这一工具的基本概念、安装过程以及如何通过Pig进行数据分析的实际案例。 #### 二、Pig简介 Pig是由Yahoo贡献给Apache...

    大数据的操作

    wget -c http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz ``` - **安装Hadoop**:安装完成后同样需要配置环境变量。 ```bash vim /etc/profile export HADOOP_HOME=/usr/...

    java大数据案例_6Hive、Kettle

    通过上述步骤,不仅可以成功安装和配置Hive,还可以利用Hive进行数据分析和统计工作,从而更好地理解如何利用Hive处理大数据集。此外,结合Kettle等工具可以进一步提高数据处理的效率和灵活性。

    Flume1.6.0入门:安装、部署、及flume的案例

    - **流式数据分析**:结合其他大数据处理框架(如 Spark Streaming),Flume 可以支持实时流式数据处理和分析。 综上所述,Flume 作为一款成熟稳定的大数据日志收集工具,不仅在技术上具有显著的优势,而且在实践中...

    spark下实现wordcount

    ### Spark 下实现 WordCount #### 一、简介 在大数据处理领域,Apache Spark 是...WordCount 作为入门级的大数据处理案例,帮助开发者快速掌握 Spark 的基本使用方法,并为进一步探索复杂的数据处理场景打下了基础。

    java大数据案例_3HBase

    在大数据领域,HBase是一个基于Apache Hadoop的分布式、面向列的NoSQL数据库,适用于处理大规模数据。本案例主要介绍如何使用Java来搭建一个包含一个Master和三个RegionServer的HBase分布式集群,并配置监控页面。 ...

    大数据组件-Flume高可用集群搭建

    ### 大数据组件-Flume高可用集群搭建 #### Flume概述 Flume是一个高度可靠的分布式数据收集系统,主要...通过上述步骤,我们可以轻松地将不同来源的数据整合到Hadoop生态系统中,为进一步的数据分析和处理打下基础。

Global site tag (gtag.js) - Google Analytics