MapReduce源码分析之架构分析1

博客分类：

hadoop

原博客http://blog.csdn.net/chlaws/article/details/23709571 前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。本篇，将不会涉及代码部分的分析，只是简单分析map的整体架构，并介绍map与reduce的运行过程，主要 ...

2014-11-11 15:31
浏览 579
评论(0)
分类:编程语言

linux性能分析命令

博客分类：

linux

性能监控性能监控2 1、top 显示当前系统正在执行的进程的相关信息，包括进程ID、内存占用率、CPU占用率等 top Js代码命令参数： -b 批处理 -c 显示完整的命令 -I 忽略失效过程 -s 保密模式 -S 累积模式 -i<时间> 设置间隔时间 -u<用户名> 指定用户名 -p<进程号> 指定进程 -

2014-11-11 15:04
浏览 413
评论(0)
分类:编程语言

thread.Join把指定的线程加入到当前线程，可以将两个交替执行的线程合并为顺序执行的线程。比如在线程B中调用了线程A的Join()方法，直到线程A执行完毕后，才会继续执行线程B。 t.join(); //使调用线程 t 在此之前执行完毕。 t.join(1000); //等待 t 线程，等待时间是1000毫秒先上一段JDK中代码： Java代码 /** * Waits at most <code>millis</code> milliseconds for this thread to ...

2014-11-11 14:59
浏览 460
评论(0)
分类:编程语言

系统吞吐量、TPS（QPS）、用户并发量、性能测试概念和公式

博客分类：

其他

系统吞吐量、TPS（QPS）、用户并发量、性能测试概念和公式分类：软件工程 2013-02-21 19:47 1865人阅读评论(0) 收藏举报 PS：下面是性能测试的主要概念和计算公式，记录下：一．系统吞度量要素：一 ...

2014-11-11 10:17
浏览 566
评论(0)
分类:编程语言

mapreduce二次排序原理讲解

博客分类：

hadoop

一.概述关于二次排序的文章，网上很多，比喻http://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html就写的不错。在此文基础上补充几点。二.job.setPartitionerClass在什么地方被用到 mapper里每一次write，都会调用到 Java代码 collector.collect(key, value,partitioner.getPartition(key, value, partitions));注partitions = jobContext.g ...

2014-11-08 18:20
浏览 792
评论(0)
分类:编程语言

hadoop shell 命令详

博客分类：

hadoop

Hadoop Shell命令 FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv

2014-11-07 18:12
浏览 373
评论(0)
分类:编程语言

storm netty配置

博客分类：

storm

Twitter Storm更新0.9.0.1之后，安装部署变得容易得多了，比起Storm0.8.x的版本，Storm少了zeromq和jzmq的安装，也省去了很多编译这些插件时出现的bug。 Storm-0.9.0.1 版本的亮点： 1.1、Netty Transport Storm 0.9.0.1版本的第一亮点是引入� ...

2014-11-07 15:57
浏览 1604
评论(0)
分类:编程语言

shell字符串截取

博客分类：

linux

一、构造字符串直接构造STR_ZERO=helloSTR_FIRST="i am a string"STR_SECOND='success'重复多次#repeat the first parm($1) by $2 timesstrRepeat(){local x=$2if [ "$x" == "" ]; thenx=0filocal STR_TEMP=""while [ $x -ge 1 ];doSTR_TEMP=`printf "%s%s" "$STR_TEMP" &quo ...

2014-11-06 18:01
浏览 892
评论(0)
分类:编程语言

Shell数值比较

博客分类：

linux

1. 关于档案与目录的侦测逻辑卷标！-f 常用！侦测『档案』是否存在 eg: if [ -f filename ]-d 常用！侦测『目录』是否存在-b 侦测是否为一个『 block 档案』-c 侦测是否为一个『 character 档案』-S 侦测是否为一个『 socket 标签档案』-L 侦测是否为一个『 symbolic link 的档案』-e 侦测『某个东西』是否存在！ 2. 关于程序的逻辑卷标！-G 侦测是否由 GID 所执行的程序所拥有-O 侦测是否由 UID 所执行的程序所拥有-p 侦测是否为程序间传送信息的 name pipe 或是 FIFO （老实说 ...

2014-11-06 11:25
浏览 705
评论(0)
分类:编程语言

storm 可靠性机制保证

博客分类：

storm

本文属原创系列，转载请注明。转自：http://blog.csdn.net/xeseo/article/details/17754825 对于Storm，它有一个很重要的特性：“Guarantee no data loss” ——可靠性很显然，要做到这个特性，必须要track每个data的去向和结果。Storm是如何做到的呢——acker机制。先概括下acker所参与的工作流程： 1. Spout创建一个新的Tuple时，会发一个消息通知acker去跟踪； 2. Bolt在处理Tuple成功或失败后，也会发一个消息通知acker； 3. acker会找到发射该Tupl ...

2014-11-03 20:54
浏览 641
评论(0)
分类:编程语言

storm spout bolt api基本介绍

博客分类：

storm

注：转帖请注明，原帖地址： http://blog.csdn.net/xeseo/article/details/17750379 Component Storm中，Spout和Bolt都是其Component。所以，Storm定义了一个名叫IComponent的总接口全家普如下：绿色部分是我们最常用、比较简单 ...

2014-11-03 20:53
浏览 1132
评论(0)
分类:编程语言

linux下spawn 与scp 等传输命令结合

博客分类：

linux

本文系统CentOS6.0 1.方法1：简便方法 upload () { /usr/bin/expect << EOD spawn bash -c "scp -r /tmp/log1/* root@127.0.0.1:/tmp/log2" for {} {1} {} { "*(yes/no)?" { send "yes/n"; continue } "*assword:" { send "password/n"; continue } -re . { ...

2014-11-03 11:10
浏览 2279
评论(0)
分类:编程语言

MapReduce任务参数调优

博客分类：

hadoop

MapReduce任务参数调优本文主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。 Hadoop的默认配置文件（以cdh5.0.1为例）： core-default.xml hdfs-default.xml mapred-default.xml 说明：在hadoop2中有些参数名称过时了，例如� ...

2014-10-30 19:58
浏览 567
评论(0)
分类:Web前端

从一个经典案例看优化mapred.map.tasks的重要性

博客分类：

hive

dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2 因为合并小文件默认为true，而dfs.block.size与hive.merge.size.per.task的搭配使得合并后的绝大部分文件都在300MB左右。 CASE 1

2014-10-28 22:31
浏览 524
评论(0)
分类:编程语言

hadoop distributecache新api与旧api用法

博客分类：

hadoop

转载请注明出处：http://www.codelast.com/ 现象：和这个帖子描述的一样，简单说来就是，在Hadoop 2.x上，用新的DistributedCache的API，在mapper中会获取不到这个cache文件。下面就详细地描述一下新旧API的用法区别以及解决办法。『1』旧API将HDFS文件添加到distributed cache中：

2014-10-28 11:45
浏览 554
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

MapReduce源码分析之架构分析1

linux性能分析命令

java线程join理解

系统吞吐量、TPS（QPS）、用户并发量、性能测试概念和公式

mapreduce二次排序原理讲解

hadoop shell 命令详

storm netty配置

shell字符串截取

Shell数值比较

storm 可靠性机制保证

storm spout bolt api基本介绍

linux下spawn 与scp 等传输命令结合

MapReduce任务参数调优

从一个经典案例看优化mapred.map.tasks的重要性

hadoop distributecache新api与旧api用法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>