- 浏览: 143336 次
- 性别:
- 来自: 上海
-
最新评论
-
xueyinv86:
你这个增强版的wordcount是在哪个版本的hadoop上跑 ...
MapReduce入门程序WordCount增强版 -
chenjianjx:
很不错的收集!
几篇关于Hadoop+Hive数据仓库的入门文章 -
canedy:
import org.apache.hadoop.hbase. ...
使用HBase的一个典型例子,涉及了HBase中很多概念 -
天籁の圁:
你的图全部挂了啊
基于Eclipse的Hadoop应用开发环境的配置 -
landyer:
happinesss 写道你是做java开发的吗我是杂货铺,什 ...
MongoDB1.8安装、分布式自动分片(Auto-Sharding)配置备忘
文章列表
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029496.html
一、客户端
Map-Reduce的过程首先是由客户端提交一个任务开始的。
提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:
public static RunningJob runJob(JobConf job) throws IOException {
//首先生成一个JobClient对象
JobClient jc = new JobClient(job);
……
...
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029492.html
1、Map-Reduce的逻辑过程
假设我们需要处理一批有关天气的数据,其格式如下:
按照ASCII码存储,每行一条记录
每一行字符从0开始计数,第15个到第18个字符为年
第25个到第29个字符为温度,其中第25位是符号+/-
0067011990999991950051507+0000+
0043011990999991950051512+0022+
0043011990999991950051518-0011+
0043 ...
原文地址:http://qa.taobao.com/?p=10523
引言在本系列的上篇文章中介绍了Hadoop的基本概念和架构,本文将通过一个实例演示MapReduce基本编程。在继续进行前希望能重温下前面的内容,至少理解
原文地址:http://qa.taobao.com/?p=10514
引言最近了解到淘宝使用hadoop的项目多了起来,hadoop对于许多测试人员来说或许是个新鲜玩儿,因此,把自己之前整理的学习笔记整理发上来,希望通过此系列文章快速了解Hadoop的基本概念和架构原理,从而助于hadoop相关项目的测试理解和沟通。
1. Hellow hadoop~~!
Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。
说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机 ...
参照官方wordcount示例,统计每个产品的销量数据:产品编号 销量131B 643CB2 61BC1A 41CCC2 59ACC2 92131B 63CB2 323CB2 36BC1A 48ACC2 40将相同的产品编号的销量统计出来程序如下:
1,Mapper:
package com.sun.hadoop;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop ...
在Eeclipse直接运行运行Nutch的Crawl任务,会出现异常:
Hadoop java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1232) while indexing
刚开始还以为是配置文件写的有问题,在详细检查了配置文件以后,发现配置文件没有问题
查日志,发现为out of memory异常
于是乎,设置VM arguments参数如下:
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop ...
本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。
硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74
这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。
一个很简单的测试办法就是ping一下主机名,比如在dbrg-1上ping dbrg-2,如果能ping通就OK!若不能正确解析,可以修改/etc/hosts文件,如果该台机器作Nameno ...
hadoop 0.20 程式開發
http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617
零. 前言 ¶
開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的classpath,否則寫hadoop程式只是打字練習...
用類 vim 來處理這種複雜的程式,有可能會變成一場惡夢,因此用eclipse開發,搭配mapreduce-plugin會事半功倍。
早在hadoop 0.19~0.16之間的版本,筆者就試過各個plugin,每個版本的plugin都確實有大大小小的問題,如:hadoop plugi ...
学习Hadoop有一段时间了,主要是通过《Hadoop权威指南》,同时参考了网上的很多文章。静下心来,盘点下这一段时间的收获,归纳总结,做一个学习笔记,因为可以记录的东西实在太多了,所以这里就着重记录我在学习过程中花费比较多时间去理解的内容。
说到Hadoop就不能不提到Lucene和Nutch。Lucene并不是一个应用程序,只是提供了一个Java的全文索引引擎工具包,可以方便的嵌入到各种实际应用中实现全文搜索、索引功能。Nutch是一个以Lucene为基础实现的搜索引擎应用。在Nutch0.8.0版本之前,Hadoop还属于Nutch的一部分,而从Nutch0.8.0开始,将其中实现的 ...
WordCount程序应该是学习MapReduce编程最经典的样例程序了,小小一段程序就基本概括了MapReduce编程模型的核心思想。
现在考虑实现一个增强版的WordCount程序,要求:
提供大小写忽略的选项。
在原始串中,过滤掉一些内容,例如要过滤hexie,那么单词hexieshehui就作为shehui统计。第一个很好实现,只需要在map函 数里判断一下要不要toLowerCase()即可。第二个也很好实现,将需要过滤的内容组合成一个长字符串,通过JobConf设置即可,但是如果需要 过滤的参数很多,多到需要从DFS上的文件里读取呢。显然,我们可以在map函数里直接读取D ...
Hadoop学习笔记之五:使用Eclipse插件
2010年12月19日 由 yedu留言 »
引言在开发调试过程中,需要将程序打包,运行任务后通过命令或web界面查看运行输出及job运行情况,这个比较繁琐,下面介绍的eclipse插件可以简化这个过程,方便调试。
Hadoop学习笔记之四:运行MapReduce作业做集成测试
2010年12月19日 由 yedu留言 »
引言通过本系列的前篇文章用MRUnit做单元测试介绍可以很容易对MapReduce进
创建目录
hadoop dfs -mkdir 目录名(dfs也可以用fs代替)
列取目录
hadoop dfs -ls .(当前目录)
hadoop dfs -ls 目录名
从本地文件系统复制文件到DFS
hadoop dfs -copyFromLocal 源文件 目标文件
源文件默认从当前目录中读取,如果目标文件是相对路径则是保存在DFS的/user/root/目录下
从DFS复制文件到本地文件系统
hadoop fs -copyToLocal 源文件 目标文件
如果源文件是相对路径这是从DFS的/user/root/目录中取得,目标文件默认保存在当前目录中
在执行操 ...
基于Eclipse的Hadoop应用开发环境的配置
(2009-01-22 22:17:54)
转载
标签:
eclipse