`
stephen80
  • 浏览: 103880 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

mapreduce 学习过程

阅读更多
1. 大致阅读 mapred_tutorial.pdf
2. 建立一个eclipse 项目,拷贝 wordCount ,编译,执行
    bin/hadoop jar mylib/tuthadoop.jar  com.***.tut.WordCount input1 output1
3. 缺省的 input ,会读 input1 底下的每个文件的每一行
   缺省的output ,会把每一行写入output1 底下的文件
4. easy
5. 阅读 nutch 源码 ,因为 nutch build on hadoop 太多的map reduce example. very good.
  
   http://wiki.apache.org/nutch/Becoming_A_Nutch_Developer, 建议的阅读顺序
   In order they are Injector, Generator, Fetcher, ParseSegment, CrawlDb, LinkDb, Indexer, DeleteDuplicates.

   http://banditjava.iteye.com/blog/244262
   Nutch开源搜索引擎的crawl日志分析及工作目录说明。

  http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/
  
   阅读 Injector ,Generator 等类。 呵呵。

6. 不能确定下一步是否需要部署 nutch
   http://wiki.apache.org/nutch/NutchHadoopTutorial

分享到:
评论

相关推荐

    MapReduce学习文档

    总的来说,这三个文件提供了从基础到高级,从理论到实践的全面MapReduce学习资料,可以帮助读者掌握这一核心的大数据处理技术。无论是对分布式计算感兴趣,还是在工作中需要处理大规模数据,深入理解MapReduce都是...

    Java编写Mapreduce程序过程浅析

    本文将深入浅出地解析Java MapReduce程序的编写过程,帮助你理解其核心概念、工作流程以及实际应用。 **一、MapReduce简介** MapReduce是一种分布式计算模型,由Google提出,主要用于处理和生成大规模数据集。它将...

    基于MapReduce实现决策树算法

    5. 基于MapReduce的决策树算法的应用:基于MapReduce实现决策树算法可以应用于数据挖掘、机器学习和推荐系统等领域,例如可以用于用户行为分析、推荐系统和风险评估等。 6. 决策树算法在MapReduce中的实现细节:在...

    mapreduce项目 数据清洗

    MapReduce是一种分布式计算模型,由Google在2004年提出,主要用于处理和生成大规模数据集。它将复杂的并行计算任务分解成两个主要阶段:Map(映射)和Reduce(化简)。在这个"MapReduce项目 数据清洗"中,我们将探讨...

    hadoop学习本地win测试mapreduce程序,所要用到的环境软件.rar

    总结,这个压缩包提供的环境软件是针对Windows用户在本地进行Hadoop MapReduce学习和测试的。它包含必要的工具和资源,帮助你配置Hadoop环境,编写并执行MapReduce程序,从而深入理解分布式计算的核心概念。在学习...

    hadoop中 MapReduce学习代码WordCount

    【Hadoop MapReduce 学习代码 - WordCount】 在大数据处理领域,Hadoop MapReduce 是一个重要的工具,它提供了一种分布式计算模型,用于处理和生成大规模数据集。本篇文章将详细讲解如何通过一个简单的 WordCount ...

    基于MapReduce的机器学习

    ### 基于MapReduce的机器学习 #### 概述 在《基于MapReduce的机器学习》这篇论文中,作者们提出了一种适用于多核架构的并行编程方法,该方法能够有效地加速多种机器学习算法的执行速度。随着计算机硬件的发展趋势...

    华为MapReduce服务应用开发指南.pdf

    总之,这份华为MapReduce服务应用开发指南是为希望在华为MRS平台上开发MapReduce应用的开发者量身打造的,其内容全面、结构清晰,并且包含了大量实例代码,是学习和参考的宝贵资源。开发者可以根据这份指南快速上手...

    Hadoop mapreduce实现wordcount

    【标题】Hadoop MapReduce 实现 WordCount ...通过理解和实践 Hadoop MapReduce 的 WordCount 示例,开发者可以快速掌握 MapReduce 的基本工作原理,为进一步学习和应用大数据处理技术打下坚实基础。

    Java MapReduce学习笔记实战内容-小白基础内容

    3. **Shuffle阶段**:在Map和Reduce之间,MapReduce框架自动执行一个称为“Shuffle”的过程,它将所有相同键的中间值组合在一起,以便Reduce函数可以处理它们。 4. **Reduce函数**:Reduce函数也是用户定义的,它...

    Python——机器学习实战——大数据与MapReduce

    本篇将探讨如何利用Python进行机器学习实战,特别是针对大数据处理时采用的MapReduce模型。MapReduce是一种分布式计算框架,它能有效地处理并行化任务,特别适合于大数据的分析。 首先,我们需要了解Python中的大...

    Hadoop MapReduce Cookbook 源码

    本书以实例驱动的方式,将复杂的理论知识转化为可操作的代码,使学习过程更加生动有趣。 首先,我们要理解MapReduce的基本工作原理。Map阶段负责数据的拆分和处理,将原始输入数据分解为键值对,并发送到各个工作...

    MapReduce应用开发

    最后,华为提供的这份培训资料强调,学习完MapReduce应用开发课程后,开发者将能够掌握MapReduce的业务过程,搭建开发环境,并进行实际的MapReduce应用开发。MapReduce作为大数据处理的核心技术之一,在云计算和...

    斯坦福大学MapReduce示例

    总的来说,这个斯坦福大学的MapReduce示例为学习如何在分布式环境中应用K-Means算法提供了一个宝贵的实践平台。通过对文件中的错误进行修复,我们可以更好地理解和掌握大数据环境下算法的实现,以及MapReduce编程...

    MapReduce开发 大数据 入门 学习

    这个过程展示了MapReduce的并行处理能力,使得大规模数据的统计变得高效。 Hadoop MapReduce处理的数据类型不是标准的Java类型,而是实现了WritableComparable接口的特殊类型,如IntWritable、LongWritable、Text等...

    MapReduce中英文 (Word)

    另一方面,"MapReduceӢ.docx"可能是英文版的文档,提供了更详细的英文描述或技术细节,对于跨语言学习和理解MapReduce非常有帮助。 总结来说,MapReduce是一种强大的分布式计算模型,它简化了大数据处理的复杂性,...

    MapReduce简单程序示例

    在大数据处理领域,MapReduce已经成为一种重要的工具,广泛应用于日志分析、搜索引擎索引构建、机器学习等多个场景。 Map阶段是数据处理的开始,它接收输入数据,并将其划分为一系列键值对(key-value pairs)。...

    用MapReduce实现KMeans算法

    接下来,我们探讨如何在MapReduce中实现这一过程。Map阶段,每个Mapper接收一部分数据,计算每个数据点到所有中心点的距离,并将其分配到最近的簇。这里,键值对通常设置为(簇ID,数据点信息),以便Reducer可以...

Global site tag (gtag.js) - Google Analytics