bash-文件数据分析案例hadoop - acooly - ITeye博客

`

zp820705

浏览: 730227 次
性别:
来自: 重庆

最近访客更多访客>>

gnomewarlock

cxl2012

dingw1982

ihansel

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xinglianxlxl：对我有用，非常感谢
xstream初步使用
liangbo11： eclipse都无法启动
JDK扩展DCEVM让WEB程序完全不重启调试
Love_wh1314：果然是这个问题。。。维护别人的代码，开始还以为自己改错了，结 ...
JQuery 实践问题 - toLowerCase 错误
tonyyan：谢谢分享！
MAVEN Scope使用
908311595：多谢楼主分享
xstream初步使用

bash-文件数据分析案例hadoop

博客分类：

linux
hadoop

阅读更多

在学习hadoop的过程中，看到一个bash脚本使用awk分析文件数据的程序，觉得有使用意义，先单独记录下，以备以后需求和参考。

max_temperature.sh
#!/usr/bin/env bash
 
for year in `ls *.gz`
do
  echo -ne `basename $year.gz`"\t"
  gunzip -c $year | \
        awk '{temp = substr($0,88,5) + 0;
              q = substr($0,93,1);
              if(temp!=9999 && q ~ /[01459]/ && temp > max) max=temp}
        END {print max}'
done

分享到：

Hadoop初学-HDFS基础 | Hadoop初学-mapreduce

2011-10-22 17:57
浏览 1403
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-2.3.4-bin-hadoop2.7.tgz: 在本案例中，我们关注的是Spark的2.3.4版本，它预编译为与Hadoop 2.7兼容的版本，打包成"spark-2.3.4-bin-hadoop2.7.tgz"的压缩文件。这个压缩包包含了运行Spark所需的所有组件，包括Java库、Python库（pyspark）、...

实验1 安装Hadoop.doc: 根据给定文件的信息，我们可以总结出以下几个重要的知识点： ...综上所述，通过本次实验，学生不仅能够学会如何在Linux虚拟机中搭建Hadoop集群，还能掌握Hadoop的基本使用技巧，为进一步学习大数据分析打下坚实基础。

hadoop-shell(第四章)-带书签高清pdf文字版: - 提供实际案例，展示如何在Shell环境中解决常见的Hadoop问题，如数据迁移、数据清理、数据分析等。总结，第四章的《Hadoop Shell实战指南》深入浅出地介绍了Hadoop Shell的使用，包括基础操作、数据处理、脚本...

大数据开发教程、案例及相关项目: - **数据分析流程**： - 利用MapReduce或Spark对数据进行聚合、过滤等操作，提取有价值的信息。 - 可以利用Spark SQL进行复杂的查询操作，或者使用MLlib库进行机器学习模型训练，进一步挖掘用户行为模式。 - **...

hadoop调试工具hadoop.dll和hadoop.exp和winutils.exe: 在Hadoop的案例中，hadoop.dll包含了Hadoop分布式文件系统（HDFS）和MapReduce框架的部分功能，使得开发者能够在Windows环境下进行分布式计算和数据处理。当遇到错误或性能问题时，调试这个DLL文件可以帮助找出问题...

ubuntu9.10上部署Hadoop: 虽然原文没有给出具体的相关工作内容，但可以推测这部分可能会涉及其他研究者使用Hadoop进行大规模数据分析的成功案例，以及这些案例中所采用的方法和技术。 #### Hadoop简介 Hadoop是一个开源软件框架，用于...

hadoop2.7.3+hive1.2.1+spark2.0.1性能测试: ### Hadoop 2.7.3 + Hive 1.2.1 + Spark 2.0.1 性能测试知识点 #### 一、环境搭建与配置 **1.1 主机环境配置** - **修改主机名称：** - 通过编辑`/etc/sysconfig/...这为后续的大数据分析应用提供了坚实的基础。

Hadoop安装部署及教学: 4. 修改配置文件：如`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`和`yarn-site.xml`，配置Hadoop的运行参数，如NameNode和DataNode地址等。 5. 初始化HDFS：使用`hdfs namenode -format`命令格式化NameNode。...

Apache Hadoop2.x 安装入门详解 PDF: 1. 日志查看：Hadoop提供了一套日志收集和分析机制，方便排查问题。 2. Web UI：通过访问NameNode和ResourceManager的Web界面监控Hadoop集群状态。学习Hadoop 2.x的安装不仅涉及技术操作，更需要理解其背后的...

hadoop shell操作与程式开发: 3. **實做四.docx**：可能是系列教程的一部分，重点讲述一个具体的Hadoop实现，比如数据分析或数据清洗的案例。通过深入学习这些材料，读者不仅可以掌握Hadoop的Shell操作，还能理解如何编写和优化MapReduce程序，...

centos下hadoop1.0.0的安装: 你可以通过Hadoop提供的命令或Web界面检查服务状态，并进行数据处理和分析。在实际操作中，可能会遇到网络、权限、配置错误等问题，需要根据日志信息进行排查和解决。在测试案例中，可以尝试上传文件到HDFS，运行...

7.Hadoop入门进阶课程_第7周_Pig介绍、安装与应用案例.pdf: 根据提供的文档信息，这是一门关于Hadoop生态系统的入门级课程中的第七周内容，主要介绍了Pig这一工具的基本概念、安装过程以及如何通过Pig进行数据分析的实际案例。 #### 二、Pig简介 Pig是由Yahoo贡献给Apache...

大数据的操作: wget -c http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz ``` - **安装Hadoop**：安装完成后同样需要配置环境变量。 ```bash vim /etc/profile export HADOOP_HOME=/usr/...

java大数据案例_6Hive、Kettle: 通过上述步骤，不仅可以成功安装和配置Hive，还可以利用Hive进行数据分析和统计工作，从而更好地理解如何利用Hive处理大数据集。此外，结合Kettle等工具可以进一步提高数据处理的效率和灵活性。

spark下实现wordcount: ### Spark 下实现 WordCount #### 一、简介在大数据处理领域，Apache Spark 是...WordCount 作为入门级的大数据处理案例，帮助开发者快速掌握 Spark 的基本使用方法，并为进一步探索复杂的数据处理场景打下了基础。

Flume1.6.0入门：安装、部署、及flume的案例: - **流式数据分析**：结合其他大数据处理框架（如 Spark Streaming），Flume 可以支持实时流式数据处理和分析。综上所述，Flume 作为一款成熟稳定的大数据日志收集工具，不仅在技术上具有显著的优势，而且在实践中...

java大数据案例_3HBase: 在大数据领域，HBase是一个基于Apache Hadoop的分布式、面向列的NoSQL数据库，适用于处理大规模数据。本案例主要介绍如何使用Java来搭建一个包含一个Master和三个RegionServer的HBase分布式集群，并配置监控页面。 ...

Python执行MapReduce测试: hadoop jar /home/cdhhadoop/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.5.0-cdh5.2.0.jar \ -file /home/cdhhadoop/pxgtest/mapper.py \ -mapper /home/cdhhadoop/pxgtest/mapper.py \ -file /home/cdh...

大数据组件-Flume高可用集群搭建: ### 大数据组件-Flume高可用集群搭建 #### Flume概述 Flume是一个高度可靠的分布式数据收集系统，主要...通过上述步骤，我们可以轻松地将不同来源的数据整合到Hadoop生态系统中，为进一步的数据分析和处理打下基础。

Global site tag (gtag.js) - Google Analytics