`
Tristan_S
  • 浏览: 378633 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop 学习

 
阅读更多


pig
分析带逻辑的文本文件, 类似于sql
不用MR直接去分割字符串什么的。
A = LOAD 'student' USING PigStorage() AS (name:chararray, age:int, gpa:float); -- loading data
B = FOREACH A GENERATE name;  -- transforming data
DUMP B;  -- retrieving results


序列化工具 avro 
序列化和反序列化时schema字段不完全匹配时,也ok
存储  原schema+数据   支持压缩
RPC = 序列化+传输(HTTP POST)
相较于thrift,  protocal buffer的优点,动态类型 不生成代码


收集日志chukwa
agent(监控节点) + collector(写入hdfs)
MR最初主要用于日志处理, 但是集群中的机器日志不断地增加,会生成大量的小文件, 而MR在处理少量大文件数据时才会有最好的效果。 这就是chuka的设计目的

收集日志Flume
和chukwa类似, 不是apache亲生的, 是flume是cloudera公司开源的。
也是agent + collector 架构
用类似shell命令的方式(支持通道符) 传递数据到HDFS


数据仓库 Greenplum
竞争对手oracle RAC --  维护成本高, 需要很强的DBA
基于postgreSQL




------------------------
DAG计算框架Tez
多个MapReduce应用之间存在依赖关系
将HDFS - Map - Reduce - HDFS2 - Map2 - Reduce2 - HDFS3
转换成 HDFS - Map - Reduce - Reduce2 - HDFS2
减少中间写HDFS和读HDFS的IO开销

还可以优化Hive等引擎
----------------------

淘宝数据魔方
分为5层
数据源层 (日志,主站备库)
----1.5PB----> 计算层(1500节点-平均每台处理10TB的数据,hadoop集群/云梯, storm/银河) 
----20TB-----> 存储层(MySql,hbase)
-------------> 数据查询层
-------------> 产品层 (数据魔方,淘宝指数)

GB - TB - PB





----------------------

TOP K问题
最热门的K个查询词
1, wordcount
2, 排序  -- map排序

K-means聚类
基于距离的迭代
1, map  划分类别
2,reduce  重新计算中心点位置


贝叶斯分类
信用卡审批

-----------------------

hdfs的读取
1,hdfs客户端访问namenode, namenode返回一个输入流对象(获得块位置)
2,用输入流对象访问DataNode读取数据。 一个个读取块,而不是并行的。

hdfs的写入
1, 在namenode中创建一个文件, namenode返回一个输出流对象
2, 输出流会将文件分割成包,然后放入一个内部数据队列中
3, 写入datanode中,需要满足dfs.replication.min(默认是1),从队列中删除
4, 向namenode确认 
注:dfs.replication(默认是3),文件会异步复制到其他datanode中,不会阻塞写入的时间。


--------------------
单独运行hadoop
start-dfs.sh
start-yarn.sh 

hadoop jar .//share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /tmp/demo.txt /out5
hdfs dfs -ls /tmp
hdfs dfs -rm -r /tmp/hadoop-yarn

hadoop dfsadmin -safemode leave 
hdfs dfs -mkdir /input
hdfs dfs -copyFromLocal tristan/inputdata/*.txt /input
hadoop jar tristan/wordcount.jar /input/*.txt /out2


history  日志
mr-jobhistory-daemon.sh start historyserver


hbase 和 datanode 副本拷贝的区别
hbase用的就是datanode的副本,并可以指定需要有多少个副本

replication的副本具体放在哪些机器
在hdfs界面中点到具体某个文件中 Total number of blocks

  • 大小: 67.3 KB
  • 大小: 46 KB
分享到:
评论

相关推荐

    java及hadoop学习资料

    这份“java及hadoop学习资料”压缩包提供了丰富的学习资源,帮助初学者或进阶者深入理解和掌握这两个领域的核心概念。 Java部分: 1. **Java基础知识**:Java的学习通常从基础语法开始,包括数据类型、变量、控制...

    最新Hadoop学习笔记

    **Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础...

    hadoop学习整理的文档

    【标题】:“Hadoop学习整理的文档” 【文档概述】: Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要用于处理和存储大规模数据。这个文档集合可能是针对Hadoop初学者或者希望深入理解Hadoop生态系统...

    大数据之Hadoop学习教程+笔记合计_超详细完整.zip

    大数据之Hadoop学习教程+笔记合计_超详细完整.zip

    Hadoop学习笔记

    Hadoop学习笔记,自己总结的一些Hadoop学习笔记,比较简单。

    Hadoop 学习笔记.md

    Hadoop 学习笔记.md

    Hadoop学习总结

    以下是对Hadoop学习的详细总结: **HDFS(Hadoop Distributed File System)简介** HDFS是Hadoop的核心组件之一,是一个高度容错性的分布式文件系统。它被设计成能在普通的硬件上运行,并能够处理大规模的数据集。...

    hadoop学习资料

    与孙老师交流Hadoop学习方法也是一种宝贵的学习机会。在学习过程中遇到问题时,可以向孙老师请教,获取及时的帮助和支持。此外,加入相关的学习社区或论坛,与其他学习者互动交流,也是提高学习效率的有效途径之一。...

    HADOOP学习笔记

    【HADOOP学习笔记】 Hadoop是Apache基金会开发的一个开源分布式计算框架,是云计算领域的重要组成部分,尤其在大数据处理方面有着广泛的应用。本学习笔记将深入探讨Hadoop的核心组件、架构以及如何搭建云计算平台。...

    hadoop学习手册

    Hadoop学习手册 Hadoop是开源、高可靠、可扩展的分布式计算框架,主要功能包括海量数据存储(HDFS)、海量数据分析(MapReduce)和分布式资源调度(Yarn)。作为云计算的标准开源软件,Hadoop的生态系统分布图包括...

    Hadoop学习总结和源码分析

    本文将基于“Hadoop学习总结和源码分析”这一主题,结合提供的文档资源,深入探讨Hadoop的核心组件HDFS(Hadoop Distributed File System)和MapReduce。 首先,我们从“Hadoop学习总结之一:HDFS简介.doc”开始,...

    hadoop学习笔记.rar

    《Hadoop学习笔记详解》 Hadoop,作为大数据处理领域中的核心框架,是Apache软件基金会下的一个开源项目,主要用于分布式存储和并行计算。本文将根据提供的Hadoop学习笔记,深入解析Hadoop的关键概念和实战技巧,...

    hadoop学习资料书

    【Hadoop学习资料书】 Hadoop是大数据处理领域的一个核心框架,由Apache软件基金会开发,以其分布式计算模型和高容错性而闻名。本学习资料书主要针对Hadoop的初学者,旨在提供全面的基础知识解析,帮助读者快速掌握...

    hadoop学习总结1-5

    总的来说,"hadoop学习总结1-5"这份资料可能涵盖了从Hadoop的基本概念到实际操作的各个方面,对于想要深入了解和掌握Hadoop的初学者来说,是一份宝贵的参考资料。通过系统学习,可以逐步提升在大数据处理领域的专业...

Global site tag (gtag.js) - Google Analytics