- 浏览: 72595 次
最新评论
文章列表
数据
3 3
3 2
3 1
2 2
2 1
1 1
两列数据按升序排列
static class SortMapper extends Mapper<LongWritable, Text, LongWritable, LongWritable> {
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, LongWritable, LongWritable>.Context context) throws IO ...
MapReduce编程模板
- 博客分类:
- Hadoop
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache. ...
Linux mint17.2 安装输入法
- 博客分类:
- Linux
fcitx依赖的包
dialog
fcitx-bin
fcitx-config-common
fcitx-config-gtk
fcitx-data
fcitx-frontend-all
fcitx-frontend-gtk2
fcitx-frontend-gtk3
fcitx-libs
fcitx-module-dbus
fcitx-module-kimpanel
fcitx-module-lua
fcitx-module-x11
fcitx-modules
fcitx-ui-classic
im-config
libopencc1
libpr ...
Linux Mint17.2 激活root用户
- 博客分类:
- Linux
sudo -i
#激活 root 帐号
sudo passwd root
Enter your existing password
Enter password for root
Confirm password for root
10种简单的Java性能优化
- 博客分类:
- JavaZZ
本文由 ImportNew - 一直在路上 翻译自 jaxenter。欢迎加入翻译小组。转载请见文末要求。
你是否正打算优化hashCode()方法?是否想要绕开正则表达式?Lukas Eder介绍了很多简单方便的性能优化小贴士以及扩展程序性能的技巧。 ...
关于Java集合的小抄
- 博客分类:
- JavaZZ
在尽可能短的篇幅里,将所有集合与并发集合的特征,实现方式,性能捋一遍。适合所有”精通Java”其实还不那么自信的人阅读。
不断更新中,请尽量访问博客原文。
List
ArrayList
以数组实现。节约空间,但数组有容量限制。超出限制时会增加50%容量,用System.arraycopy()复制到新的数组,因此最好能给出数组大小的预估值。默认第一次插入元素时创建大小为10的数组。
按数组下标访问元素–get(i)/set(i,e) 的性能很高,这是数组的基本优势。
2.1 开源的GFS
设计目标:
1、硬件错误时常态而不是异常
2、流式数据访问
3、大规模数据集
4、简单一致性模型
5、移动计算比移动数据更划算
保障HDFS可靠性措施
1、冗余备份
...
第三章 MapReduce
- 博客分类:
- 实战Hadoop
3.1 MapReduce基础
任务的分解与结果的汇总。
MapReduce框架负责分布式存储、工作调度、负载均衡、容错处理、网络通信.....复杂的任务有框架完成。
MapReduce集群行为:
1、任务调度与执行
MapReduce任务有JobTracker和TaskTr ...
第四章 开发MapReduce应用程序
- 博客分类:
- Hadoop实战
4.1 系统参数的配置
配置中被标记为“final”的属性不能被重写
4.2 配置开发环境
Hadoop三种不同的运行方式:单机模式、伪分布式模式、完全分布式
4.3 编写MapReduce程序
4.4 本地测试
P62
4.5 运行MapReduce程序
P6 ...
第三章 MapReduce计算模型
- 博客分类:
- Hadoop实战
3.1 为什么用MapReduce
分布式+海量数据
3.2 MapReduce计算模型
JobTracker,用户管理和调度工作
TaskTracker,用于执行工作
Job,每个个MapReduce任务被初始化为一个Job,每个Job又分为两个阶段,分别用Map函数和Reduce函数表示这两个阶段
InputSplit,存储的不是数据本身,而是一个分片长度和一个记录数据位置的数据
新的API包为org.appache.hadoop.mapreduce,旧API包为org.appache.hadoop.mapred
新/旧版API区别:
1、 ...
Hadoop中的I/O与传统I/O的区别:
1、传统I/O数据是集中存储的,在一台主机上,Hadoop I/O数据分布在多台主机上。
2、传统I/O数据量比较小,大多GB级,Hadoop I/O数据量经常PB级的
7.1 I/O操作的数据检查
通过校验和方式检查数据完整性,检验和不恩那个恢复数据,只能检测数据错误。
Hadoop采用CRC-32(检验和为32位)的方式检查数据完整性。
本地文件文件I/O的检查
当Hadoop创建一个文件,同时也会创建一个“文件名.src”的隐藏文件用来保存校验和。例如创建A文件同时也会创建一个A.src的文件用来保存校验和信息 ...
一个变量的地址称作该变量的“指针”
指针就是通过地址体现的
-----------------------------------------------------------------------------------------------------------
#include<stdio.h>
int main(){
int a,b;
int * p1,* p2;
a = 10;
b = 20; ...
Hadoop MapReduce入门
- 博客分类:
- Hadoop
MapReduce是个毛
Hadoop是一个分布式计算系统,两大核心HDFS,这是搞文件的,MapReduce,这是搞计算的。MapReduce是一种编程模型,类比为设计模式,好比最佳实践,编写是先写map函数,再写reduce函数。
Shuffle是个毛
这个图来自《Hadoop,The Definitive Guide》,就是“谁说大象不能跳舞”那本书,用来描述shuffle和sort,用这个图理解shuffle,很难学的会跳舞。
shuffle描述的是,数据从map函数输出后,到reduce函数输入前的这段过程,这段过程中所发生的事情,尿做shuffle。 ...