•The Motivation For Hadoop
· Problems with traditional large-scale systems
· Requirements for a new approach
• Hadoop Basic Concepts
· An Overview of Hadoop
· The Hadoop Distributed File System
· How MapReduce Works
· Anatomy of a Hadoop Cluster
· Other Hadoop Ecosystem Components
• Writing a MapReduce Program
· The MapReduce Flow
· Examining a Sample MapReduce Program
· Basic MapReduce API Concepts
· The Driver Code
· The Mapper
· The Reducer
· Hadoop’s Streaming API
· Using Eclipse for Rapid Development
• Integrating Hadoop Into The Workflow
· Relational Database Management Systems
· Storage Systems
· Creating workflows with Oozie
· Importing Data from RDBMSs With Sqoop
· Importing Real-Time Data with Flume
· Accessing HDFS Using FuseDFS and Hoop
• Delving Deeper Into The Hadoop API
· Using Combiners
· Using LocalJobRunner Mode for Faster Development
· Reducing Intermediate Data with Combiners
· The configure and close methods for MapReduce
Setup and Teardown
· Writing Partitioners for Better Load Balancing
· Directly Accessing HDFS
· Using The Distributed Cache
• Using Hive and Pig
· Hive Basics
· Pig Basics
• Common MapReduce Algorithms
· Sorting and Searching
· Indexing
· Machine Learning with Mahout
· Term Frequency - Inverse Document Frequency
· Word Co-Occurrence
• Practical Development Tips and Techniques
· Testing with MRUnit
· Debugging MapReduce Code
· Using LocalJobRunner Mode for Easier Debugging
· Eclipse development techniques
· Retrieving Job Information with Counters
· Logging
· Splittable File Formats
· Determining the Optimal Number of Reducers
· Map-Only MapReduce Jobs
· Implementing Multiple Mappers using ChainMapper
• More Advanced MapReduce Programming
· Custom Writables and WritableComparables
· Saving Binary Data using SequenceFiles and Avro Files
· Creating InputFormats and OutputFormats
• Joining Data Sets in MapReduce Jobs
· Map-Side Joins
· The Secondary Sort
· Reduce-Side Joins
• Graph Manipulation in Hadoop
· Introduction to graph techniques
· Representing Graphs in Hadoop
· Implementing a sample algorithm: Single Source
· Shortest Path
• Creating Workflows with Oozie
· The Motivation for Oozie
· Oozie’s Workflow Definition Format
分享到:
相关推荐
Cloudera Developer Training for Apache Hadoop CCDH是一门专注于Hadoop的开发者培训课程,由Cloudera公司提供。Cloudera是全球领先的Hadoop发行版提供商和相关服务的供应商,致力于推动Apache Hadoop技术的应用和...
标题中提到的“SQL for Apache Hadoop”指向一种通过SQL语言访问和操作Apache Hadoop...但即便如此,文档提供的信息依然足够清晰,能够让读者抓住“SQL for Apache Hadoop”的核心概念以及Cloudera Impala的使用情况。
Cloudera作为一家知名的开源大数据技术公司,其产品CDH(Cloudera’s Distribution, including Apache Hadoop)是广泛使用的大数据平台。Cloudera提供定制化培训,以帮助开发者和数据工程师掌握使用CDH进行大数据...
Cloudera Administrator Training是一门专门针对Apache Hadoop管理员的课程,由Cloudera公司提供,旨在培养具备Hadoop集群安装、配置、管理及维护能力的技术人员。课程深入讲解了Hadoop生态系统的各个组件,包括...
Cloudera Administrator Training for Apache Hadoop是一门专门针对Apache Hadoop集群管理的专业课程,适用于那些希望深入了解Hadoop及其生态系统组件的IT专业人士。 Hadoop是Apache基金会的一个开源项目,它是一套...
Cloudera essentials for Apache Hadoop Learn how Apache Hadoop addresses the limitations of traditional computing, helps businesses overcome real challenges, and powers new types of big data analytics....
Cloudera还提供了自己的Hadoop发行版,即Cloudera's Distribution including Apache Hadoop(CDH),这是一个从Apache Hadoop核心库提供的易于安装的软件包。CDH包含了Hadoop的稳定版本,并且集成了其他关键的补充...
该解决方案基于Cloudera的Apache Hadoop发行版(CDH),这是一款全球领先的商业和非商业环境中使用的Hadoop发行版。CDH提供了将Hadoop应用于生产环境所需的全面路径,使企业能够利用Hadoop解决业务问题。 #### ...
2. **Cloudera平台**:Cloudera是Hadoop生态系统的领导者之一,提供了一整套企业级的大数据管理和分析平台,包括CDH(Cloudera Distribution Including Apache Hadoop)和Cloudera Manager等产品,使得HBase的部署、...
根据给定的文件信息,以下是对Cloudera Hadoop安装指南中的关键知识点的详细解析。 ### 关于Cloudera Hadoop安装指南 Cloudera Hadoop安装指南是为那些希望在自己的环境中部署并运行Cloudera Hadoop软件的用户提供...
Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和...
ClouderaHiveODBC-2.6.11.1011-1.x86_64.rpm 数据库ODBC驱动,linux操作系统,连接Hive驱动程序
- 个人成长:文档中提到了Todd Lipcon作为Hadoop早期用户,后来加入了Cloudera,并在ASF中成为了Apache Kudu(正在孵化中)的贡献者。 - 贡献者与项目维护者:随着对Hadoop贡献的增多,个人可以成为Apache项目的...
这对于Cloudera Distribution Including Apache Hadoop(CDH)的构建而言,是一个重要的基础,类似于Fedora之于Red Hat Enterprise Linux的关系。 Hadoop和大数据仍然很年轻,硬件趋势将继续发展,Hadoop从最初的两...
Apache Sentry 是一个重要的开源组件,源自Cloudera公司,它主要负责在Hadoop生态系统中提供细粒度的、基于角色的授权和多租户管理功能。作为Apache的孵化项目,Sentry已经集成到了Hive、HCatalog、Apache Solr以及...
【标题】"cloudera-homework" 是一个与 Apache Hadoop 相关的专题课程作业,源自 Cloudera 提供的"Apache Hadoop – 本科生课程"。这个作业可能涵盖了 Hadoop 生态系统的核心概念和技术,旨在帮助学生深入理解和实践...
此外,Hadoop也与各种商业和开源软件供应商的产品进行了集成,如Cloudera的企业数据平台,提供了管理和监控Hadoop集群的全套解决方案。 总之,Apache Hadoop是大数据处理的关键技术,其开放源码的特性吸引了全球...
anager是Cloudera公司提供的一款全面管理大数据平台的工具,主要负责管理Apache Hadoop及其相关的服务,如HDFS、MapReduce、Hive等。CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera提供的一个开源...
Cloudera是提供Hadoop商业发行版的一个主要供应商,其产品CDH(Cloudera's Distribution including Apache Hadoop)是业界广泛使用的企业级Hadoop解决方案。 在Cloudera提供的Hadoop开发员培训中,首先会对Hadoop的...
这个认证,即CCD-410,是Cloudera Certified Developer for Apache Hadoop (CCDH) 的一部分,旨在验证个人在使用Cloudera平台处理和分析大数据集方面的能力。 CCD-410考试详细涵盖了以下关键知识点: 1. **Hadoop...