`
Yinny
  • 浏览: 295827 次
  • 性别: Icon_minigender_2
  • 来自: 杭州
社区版块
存档分类
最新评论

记录下执行MapReduce的过程

 
阅读更多
在把把代码迁移到淘单之前,直接在datedomin里把我的mr打包扔到sns的gateway上去跑的时候,因为有第三方依赖,所以还要设置依赖参数啥的,比较不爽,代码迁移到淘单后,依赖关系一目了然,一并迁移过来就好啦,然后就是把代码打成jar包扔掉gateway上去跑就行咯。。

下面记录下期间抛出的错误哈
error 1
这是运行是抛出的错误,被引用的类木有加进来哈,这个问题解决的方法有很多啦,
其中一种是加参数,把依赖的包加进来:hadoop -D libjars=job1.jar,job2.jar ,但是如果代码里依赖比较多,并且还有层层依赖的话,就比较蛋疼了!!所以要慎用。。
还有一种就是把依赖的jar放到工程resource的lib的,打包的时候一并打进去就好啦,但是这种方法其实不太正规哦。


error 2
这个就是一个粗心所导致的错误啦,这里提示FullIndexTaodanJobSubmitter类找不到,于是我打开jar包里查看,竟然把java文件打包了,shit。。因为我是把文件拷出来然后用命令打包的,所以一时粗心犯错了,如果用eclipse的export导出jar就不会出错啦!
这里有查看jar包文件的命令:unzip ,查看jar包内的文件列表



unzip -l <jar包>这个命令,可以直接查看jar包内的具体文本文件内容了。
unzip -ca <jar包> <jar包内的文件>其中<jar包内的文件>这一项,可以通过unzip -l 查看。
使用这两个命令的好处就是不用把jar包内的文件解压到文件系统了,爽哉~~!

最后就是job运行成功啦~~~~~(一般job在运行的时候都会把明显的错误抛出来的,如果没有抛出错误但是却运行失败的话就要到一个jobtracker的监控系统里查job执行详细情况,和日志了)



下面就可以查看运行完成的job啦



因为我们sns的gateway是开发环境 ,不让生产 ,所以所以job都要申请到宙斯上去跑,so,我又把jar传到了宙斯上,然后写了shell脚本执行jar,经历了千辛万苦的配置呀各种错误,特别感谢行俭的配置指导呀,还授予我“sns hadoop配置达人称号” 我终于第一次手动执行成功了 ,以此来纪念下:





  • 大小: 259.6 KB
  • 大小: 221.9 KB
  • 大小: 165.7 KB
  • 大小: 193.7 KB
  • 大小: 97.6 KB
  • 大小: 231.9 KB
分享到:
评论

相关推荐

    Hadoop的MapReduce执行过程介绍.pdf

    默认情况下,Hadoop的TextInputFormat将每行作为一个单独的记录来处理,其中key是行的起始位置,value是整行的文本。Mapper函数在此阶段被调用,它接收这些key-value对并对其进行处理。对于天气数据,mapper解析每行...

    mapreduce项目 数据清洗

    在这个项目中,数据可能存储在HDFS上,由YARN调度执行MapReduce作业。 5. **优化策略**: 为了提高效率,MapReduce作业可以采用各种优化策略,如分区(Partitioning)、排序(Sorting)和组合(Combiner)。分区...

    MapReduce 设计模式

    8. 计数模式(Counting with Counters):计数器是MapReduce中用于记录任务执行过程中特定事件次数的机制。它可以用来监控MapReduce作业的性能,例如计算错误数据的数量或特定数据的出现频率。 9. 过滤模式...

    MapReduce发明人关于MapReduce的介绍

    总之,MapReduce不仅仅是一项技术革新,它代表了一种思维方式的转变,即将复杂的大数据处理问题分解为可管理的小任务,再通过并行计算来加速整个过程。这一理念在当今的大数据时代依然具有重要意义,启发了后续众多...

    Hadoop MapReduce高级特性

    在MapReduce任务中,计数器用于追踪和记录任务执行过程中发生的各种事件的数量,从而帮助开发者更好地了解作业的执行情况。计数器分为系统计数器和自定义计数器。系统计数器是由Hadoop框架自带的,用于监控任务执行...

    大数据 hadoop mapreduce 词频统计

    在这个过程中,Hadoop MapReduce通过并行化处理和容错机制,能够高效地处理大规模数据,即使在硬件故障的情况下也能确保数据完整性。同时,MapReduce的编程模型相对简单,使得开发者能够专注于业务逻辑,而不是底层...

    MapReduce1.doc

    - **计数器计数**:计数器是MapReduce框架中的一个重要工具,用于在整个作业执行过程中跟踪和聚合计数信息。例如,可以用来计算某个事件发生的次数或验证数据处理的正确性。 3. **过滤模式**: - **过滤**:...

    MapReduce的小应用

    在实现过程中,需要注意的是,第二个MapReduce任务的输入目录是第一个任务的输出目录。使用JobControl类可以管理这两个job的顺序执行。在Reduce阶段,为了避免自动对相同key的字段相加,collect语句应放置在循环内部...

    MapReduce Online译文PDF

    - **MapReduce编程模型** 包括map和reduce两个步骤:map函数对每个输入记录生成中间键-值对;reduce函数根据不同的键对中间值进行汇总处理。 - **Combiner函数** 可以用来减少网络传输的数据量,在map端就对数据进行...

    Mapreduce_mapreduce项目_purplegw6_hadoopmapreduce_

    2. **编写Mapper**:Mapper是Map阶段的实现,它接收输入数据块,对每条记录执行特定的操作,例如,统计词频时,Mapper会解析文本行,提取单词并生成&lt;单词,1&gt;的键值对。 3. **编写Reducer**:Reducer在Reduce阶段...

    MapReduce基础

    通常情况下,Reduce函数会执行一些聚合操作,例如求和、计数等,从而生成更简洁的结果。 **示例**:如果在Map阶段产生了多个包含数值的键值对,那么在Reduce阶段可以使用求和函数来计算这些数值的总和。 #### 三、...

    Hadoop MapReduce.pdf

    - 这个过程涉及数据的重新分布,确保所有具有相同键的值都被发送到同一个Reduce任务。 4. **Reduce阶段**: - Reduce任务接收来自不同Map任务的具有相同键的值。 - 对于每个键,Reduce函数执行某种聚合操作,如...

    MapReduce & Hadoop

    随着大数据技术的发展,尽管出现了Spark等新的计算框架,但MapReduce仍然在某些场景下发挥着重要作用。例如,在需要进行大规模数据批处理的应用场景中,MapReduce依然具有不可替代的地位。同时,许多基于Hadoop生态...

    用MapReduce实现KMeans算法

    - **读取数据**:Mapper从HDFS上读取数据记录,对每个记录执行以下操作。 - **计算距离**:计算当前数据点与所有中心点的距离。 - **分配簇**:根据最小距离将数据点分配到最近的聚类中心所在的簇。 - **输出...

    mapreduce简介

    默认情况下,Hadoop(一个广泛使用的开源MapReduce实现)会将数据复制三份,这样即使有节点故障,也能从其他副本中恢复。 MapReduce非常适合处理批处理任务,如日志分析、网页索引构建、机器学习等。然而,它在低...

    hbase导入话单数据mapreduce函数实现执行过程实例(博客附件)

    标题中的“hbase导入话单数据mapreduce函数实现执行过程实例”揭示了本文将探讨如何使用MapReduce在HBase中导入大数据,特别是话单记录。HBase是一个分布式、版本化的NoSQL数据库,常用于处理大规模的数据。...

    MapReduce求平均值示例程序

    通过logger,我们可以将调试信息、错误消息或重要事件输出到日志文件,便于追踪程序执行过程和定位问题。例如,logger可以在map和reduce阶段的关键点输出信息,如输入数据的统计信息、中间结果以及可能的异常,帮助...

Global site tag (gtag.js) - Google Analytics