Hadoop学习总结：Map-Reduce的过程解析

博客分类：

hadoop

原文地址：http://www.cnblogs.com/end/archive/2011/04/26/2029496.html 一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的： public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = new JobClient(job); …… ...

2011-05-03 04:28
浏览 1137
评论(0)
分类:编程语言

Hadoop学习总结：Map-Reduce入门

博客分类：

hadoop

Hadoop JVM Cache

原文地址：http://www.cnblogs.com/end/archive/2011/04/26/2029492.html 1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 0043011990999991950051518-0011+ 0043 ...

2011-05-03 04:26
浏览 954
评论(0)
分类:编程语言

hadoop学习笔记之二：MapReduce基本编程

博客分类：

hadoop

编程 Mapreduce Hadoop Eclipse maven

原文地址：http://qa.taobao.com/?p=10523 引言在本系列的上篇文章中介绍了Hadoop的基本概念和架构，本文将通过一个实例演示MapReduce基本编程。在继续进行前希望能重温下前面的内容，至少理解

2011-05-03 04:24
浏览 1268
评论(0)
分类:编程语言

hadoop学习笔记之一：初识hadoop

博客分类：

hadoop

Hadoop Mapreduce 编程 HBase 云计算

原文地址：http://qa.taobao.com/?p=10514 引言最近了解到淘宝使用hadoop的项目多了起来，hadoop对于许多测试人员来说或许是个新鲜玩儿，因此，把自己之前整理的学习笔记整理发上来，希望通过此系列文章快速了解Hadoop的基本概念和架构原理，从而助于hadoop相关项目的测试理解和沟通。

2011-05-03 04:21
浏览 948
评论(0)
分类:编程语言

使用hadoop进行大规模数据的全局排序

博客分类：

hadoop

Hadoop Mapreduce 网络应用虚拟机算法

1. Hellow hadoop~~! Hadoop（某人儿子的一只虚拟大象的名字）是一个复杂到极致，又简单到极致的东西。说它复杂，是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成，你运行的每一个任务都要在这些计算机 ...

2011-05-03 03:58
浏览 749
评论(0)
分类:编程语言

Hadoop学习-4 Hadoop初试

博客分类：

hadoop

Hadoop Mapreduce Apache SUN C

参照官方wordcount示例，统计每个产品的销量数据：产品编号销量131B 643CB2 61BC1A 41CCC2 59ACC2 92131B 63CB2 323CB2 36BC1A 48ACC2 40将相同的产品编号的销量统计出来程序如下： 1，Mapper： package com.sun.hadoop; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop ...

2011-04-30 21:29
浏览 884
评论(0)
分类:编程语言

在Eclipse中跑hadoop job failed ，内存溢出

博客分类：

hadoop

Hadoop Eclipse Java Apache

在Eeclipse直接运行运行Nutch的Crawl任务,会出现异常: Hadoop java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1232) while indexing 刚开始还以为是配置文件写的有问题,在详细检查了配置文件以后,发现配置文件没有问题查日志,发现为out of memory异常于是乎,设置VM arguments参数如下: -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop ...

2011-04-30 17:47
浏览 1918
评论(0)
分类:编程语言

Hadoop学习笔记二安装部署

博客分类：

hadoop

Hadoop SSH Mapreduce XSL XML

本文主要是以安装和使用hadoop-0.12.0为例，指出在部署Hadoop的时候容易遇到的问题以及如何解决。硬件环境共有3台机器，均使用的FC5系统，Java使用的是jdk1.6.0。IP配置如下：dbrg-1：202.197.18.72dbrg-2：202.197.18.73dbrg-3：202.197.18.74 这里有一点需要强调的就是，务必要确保每台机器的主机名和IP地址之间能正确解析。一个很简单的测试办法就是ping一下主机名，比如在dbrg-1上ping dbrg-2，如果能ping通就OK！若不能正确解析，可以修改/etc/hosts文件，如果该台机器作Nameno ...

2011-04-30 16:50
浏览 670
评论(0)
分类:编程语言

wordcount在eclipse上的伪分布式运行过程

博客分类：

hadoop

Eclipse Hadoop Mapreduce SSH Apache

hadoop 0.20 程式開發 http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617 零. 前言 ¶ 開發hadoop 需要用到許多的物件導向語法，包括繼承關係、介面類別，而且需要匯入正確的classpath，否則寫hadoop程式只是打字練習... 用類 vim 來處理這種複雜的程式，有可能會變成一場惡夢，因此用eclipse開發，搭配mapreduce-plugin會事半功倍。早在hadoop 0.19～0.16之間的版本，筆者就試過各個plugin，每個版本的plugin都確實有大大小小的問題，如：hadoop plugi ...

2011-04-30 14:25
浏览 2098
评论(0)
分类:编程语言

Hadoop学习总结

博客分类：

hadoop

Hadoop Mapreduce lucene 框架正则表达式

学习Hadoop有一段时间了，主要是通过《Hadoop权威指南》，同时参考了网上的很多文章。静下心来，盘点下这一段时间的收获，归纳总结，做一个学习笔记，因为可以记录的东西实在太多了，所以这里就着重记录我在学习过程中花费比较多时间去理解的内容。说到Hadoop就不能不提到Lucene和Nutch。Lucene并不是一个应用程序，只是提供了一个Java的全文索引引擎工具包，可以方便的嵌入到各种实际应用中实现全文搜索、索引功能。Nutch是一个以Lucene为基础实现的搜索引擎应用。在Nutch0.8.0版本之前，Hadoop还属于Nutch的一部分，而从Nutch0.8.0开始，将其中实现的 ...

2011-04-30 14:11
浏览 1606
评论(0)
分类:编程语言

MapReduce入门程序WordCount增强版

博客分类：

hadoop

Mapreduce Hadoop Apache 框架编程

WordCount程序应该是学习MapReduce编程最经典的样例程序了，小小一段程序就基本概括了MapReduce编程模型的核心思想。现在考虑实现一个增强版的WordCount程序，要求：提供大小写忽略的选项。在原始串中，过滤掉一些内容，例如要过滤hexie，那么单词hexieshehui就作为shehui统计。第一个很好实现，只需要在map函数里判断一下要不要toLowerCase()即可。第二个也很好实现，将需要过滤的内容组合成一个长字符串，通过JobConf设置即可，但是如果需要过滤的参数很多，多到需要从DFS上的文件里读取呢。显然，我们可以在map函数里直接读取D ...

2011-04-30 13:42
浏览 2062
评论(1)
分类:编程语言

Hadoop学习笔记之五：使用Eclipse插件

博客分类：

hadoop

Eclipse Hadoop Mapreduce UI Ant

Hadoop学习笔记之五：使用Eclipse插件 2010年12月19日由 yedu留言 » 引言在开发调试过程中，需要将程序打包，运行任务后通过命令或web界面查看运行输出及job运行情况，这个比较繁琐，下面介绍的eclipse插件可以简化这个过程，方便调试。

2011-04-30 13:26
浏览 1439
评论(0)
分类:编程语言

Hadoop学习笔记之四:运行MapReduce作业做集成测试

博客分类：

hadoop

Mapreduce Hadoop 软件测试单元测试 SSH

Hadoop学习笔记之四:运行MapReduce作业做集成测试 2010年12月19日由 yedu留言 » 引言通过本系列的前篇文章用MRUnit做单元测试介绍可以很容易对MapReduce进

2011-04-30 13:25
浏览 1142
评论(0)
分类:编程语言

初学Hadoop

博客分类：

hadoop

Hadoop Apache

创建目录 hadoop dfs -mkdir 目录名（dfs也可以用fs代替）列取目录 hadoop dfs -ls .（当前目录） hadoop dfs -ls 目录名从本地文件系统复制文件到DFS hadoop dfs -copyFromLocal 源文件目标文件源文件默认从当前目录中读取，如果目标文件是相对路径则是保存在DFS的/user/root/目录下从DFS复制文件到本地文件系统 hadoop fs -copyToLocal 源文件目标文件如果源文件是相对路径这是从DFS的/user/root/目录中取得，目标文件默认保存在当前目录中在执行操 ...

2011-04-30 13:20
浏览 1191
评论(0)
分类:编程语言

基于Eclipse的Hadoop应用开发环境的配置

博客分类：

hadoop

Hadoop Eclipse 应用服务器 Ubuntu IBM

基于Eclipse的Hadoop应用开发环境的配置 (2009-01-22 22:17:54) 转载标签： eclipse

2011-04-27 15:30
浏览 1373
评论(1)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop学习总结：Map-Reduce的过程解析

Hadoop学习总结：Map-Reduce入门

hadoop学习笔记之二：MapReduce基本编程

hadoop学习笔记之一：初识hadoop

使用hadoop进行大规模数据的全局排序

Hadoop学习-4 Hadoop初试

在Eclipse中跑hadoop job failed ，内存溢出

Hadoop学习笔记二安装部署

wordcount在eclipse上的伪分布式运行过程

Hadoop学习总结

MapReduce入门程序WordCount增强版

Hadoop学习笔记之五：使用Eclipse插件

Hadoop学习笔记之四:运行MapReduce作业做集成测试

初学Hadoop

基于Eclipse的Hadoop应用开发环境的配置

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>