`
m635674608
  • 浏览: 5003672 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

《BIG DATA大数据日知录 架构和算法》读书笔记

 
阅读更多

1.数据分片和路由

  • Hash
    • Hash
      • H(Key) = hash(key) mod K
    • 虚拟桶(Virtual Buckets)
      • 先hash到桶,在Hash,多加一层Hash便于扩展
    • 一致性Hash
      • 分布式Hash表(DHT),P2P对等网络,构成环,节点加入和离开自动调整
  • 范围
    • 如HBase中的LSM树

2.数据复制和一致性

  • 基本原则
    • CAP(强一致性、可用性和分区容忍性),CP、AP,涉及到网络分区的(P),CAP不可兼得
    • ACID(原子、一致、隔离、持久)
    • BASE(基本可用B允许偶尔失败、软状态Soft State、最终一致性Eventual Consistency)
      • BASE原则是牺牲一致性达到高可用
    • 幂等性(f(f(x)) = f(x)),反复调用,状态正确
  • 一致性模型
    • 强一致性
    • 最终一致性,一个时间窗口内数据允许不一致
    • 因果一致性
  • 副本更新策略 *
  • 一致性协议
    • 两阶段提交协议(2PC)
    • 向量时钟(Vector Clock)
    • RWN协议(成功读取R + 成功写入W > 数据备份数N)
    • Paxos协议
      • 安全、可用
      • 副本状态机、Log
      • Proposer、Acceptor、Learner
    • Raft协议
      • 可理解、确定

3.常用算法和数据结构

  • Bloom Filter布隆过滤器
    • 用位表示元素是否存在,1到多个独立的hash,空间效率极高
    • 改进,加入计数,用于删除成员
  • Skip List跳跃表
    • 可替代平衡二叉树,O(Log(n))
  • LSM树
    • 大量随机写,转化为批量顺序写
  • Merkle哈希树
    • 层级的hash树
    • 快速定位数据变化部分
    • 比特币
  • Snappy和LZSS压缩算法
  • Cuckoo哈希
    • 采用交换解决hash冲突

4.集群资源管理和调度

  • 要解决的基本问题
    • 资源异质性、工作负载异质性,即组成元素差异较大
    • 数据局部性
    • 抢占式调度和非抢占式调度
    • 资源分配粒度,Job还是Task
    • Starvation和Dead Lock
    • 资源隔离
  • 资源管理和调度泛型
    • 集中式调度器、Borg
    • 两级调度器,mesos、YARN
    • 状态共享调度器、Omega
  • Mesos
  • YARN
    • RM,资源管理器,Resource Manager
    • AM,作业的应用服务器,Application Manager
    • NM,每个机器的节点服务器,Node Manager

5.分布式协调系统

  • Chubby,Google
    • 基于Paxos一致性协议
  • ZooKeeper
    • 可扩展、高吞吐、分布式协调系统
    • 应用场景:领导选举、配置管理、组成员管理、任务分配、锁管理
    • HBase、Storm、Solr、Kafka...

6.分布式通信

  • 序列化、反序列化
    • Protocol Buffer
    • Thrift
    • Avro,json定义schema
  • 消息队列
    • Kafka
  • 多播通信(Application-Level Multi-broadcast)
    • Gossip协议,Epidemic Protocol感染协议,如Cassandra维护机器节点状态

7.数据通道

  • Log采集
    • Chukwa,基于Hadoop
    • Scribe,Facebook
  • 数据总线,数据变化通知通道,一般基于数据库日志挖掘
    • Databus、LinkedIn
    • Wormhole、Facebook
  • 数据导入导出
    • Sqoop,hadoop和其他关系或者nosql之前的导入导出

8.分布式文件系统

  • GFS,Google
    • Colossus,下一次GFS
  • HDFS,Hadoop
  • HayStack,对象存储系统,Facebook
  • Erasure Code 纠删码
    • 减少数据备份,提供可靠性
    • Reed-Solomon编码
    • LRC编码
    • HDFS-RAID架构

9.内存kv数据库

  • RAMCloud
  • Redis
  • MemBase,CouchBase

10.列数据库

  • BigTable
  • PNUTS
  • MegaStore
  • Spanner
  • BigTable在跨行、跨表的强一致性需求场景表现不佳,MegaStore一定程度上缓解,但是写性能不佳,Spanner进一步升级,支持类SQL和事务

11.大规模批处理系统

  • MapReduce
    • 求和,Summarization Pattern
    • 过滤,Filtering Pattern,top10等
    • 组织数据,Data Organization Pattern,分片、排序
    • Join模式,Join Pattern,Reduce-Side、Map-Side Join
  • DAG计算模型
    • Dryad,微软
    • FlumeJava,Google
    • Tez,Apache

12.流式计算

  • 架构
    • 主从,Store
    • P2P,S4
    • Samza

13.交互式数据分析

  • Hive系,Facebook
    • SQL-on-Hadoop
    • 耦合Hadoop导致效率低下
    • StingerIntiative,改进Hive
  • Shark系
    • 基于Spark
  • Dremel系,需要关注
    • Dremel、PowerDrill、Impala、Presto
  • 混合
    • Hadoop DB

14.图数据库:架构和算法

  • 图挖掘问题
    • PageRank计算
    • 单源最短路径
    • 二部图最大匹配
  • 在线
    • TAO, Facebook
  • 离线
    • Pregel,Google
    • Giraph,基于Hadoop的开源版本
    • GraphChi
    • PowerGraph

15.机器学习:泛型和架构

  • 概念
    • 监督学习,分类、回归
    • 非监督学习,聚类
  • 分布式学习泛型
    • 同步泛型
    • 异步泛型
    • 部分同步泛型
  • 计算模型
    • mapreduce迭代计算模型
    • BSP,整体同步并行计算
    • SSP,部分同步
  • 架构
    • Hadoop
      • 利用平台,Oryx Cloudera, Mahout Apache
      • 改造平台,Twister, Haloop
    • Spark及MLBase *
    • Parameter Server
      • DistBelief
      • Petuum

16.机器学习:分布式算法

  • 计算广告
    • 逻辑回归
    • 并行随机梯度下降
    • 批学习并行逻辑回归
  • 推荐系统
    • 矩阵分解
    • ALS-WR算法
    • 并行ALS-WR算法
  • 搜索引擎
    • 机器学习排序
    • LambdaMART
    • 分布式LambdaMART
  • 自然语言处理
    • 文档相似性计算
  • 社交挖掘
    • 谱聚类
    • 并行谱聚类
  • 深度学习
    • DistBelief

17.增量计算

  • Percolator
  • Kineograph
  • DryadInc

http://my.oschina.net/serverx/blog/693701

分享到:
评论

相关推荐

    大数据日知录.mmap

    《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含...

    HCNA-BigData大数据平台实验手册.pdf

    HCNA-BigData大数据平台实验手册.pdfHCNA-BigData大数据平台实验手册.pdfHCNA-BigData大数据平台实验手册.pdfHCNA-BigData大数据平台实验手册.pdfHCNA-BigData大数据平台实验手册.pdf

    BigData大数据学习笔记

    BigData大数据学习笔记

    大数据(Bigdata)详解完整版

    大数据(Bigdata)是21世纪信息技术领域的一个关键术语,它涵盖了从数据收集、存储、分析到价值提取的全过程。大数据的特点通常被概括为“5V”:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值...

    HCIE-Big Data【大数据】.zip

    3. HCIE-Data Center【数据中心】:大数据通常在数据中心运行,因此这部分可能涵盖数据中心的设计、建设和运维,包括计算资源分配、网络架构、制冷和能效管理,以及如何在数据中心中部署大数据解决方案。 4. HCIE-...

    华为HCIP-Big Data Developer V2.0大数据培训教材和实验指导.rar

    《华为HCIP-Big Data Developer V2.0大数据培训教材与实验指导》是华为认证体系中针对大数据开发专业的一项重要课程资源。此压缩包包含了全面的学习资料和实践指南,旨在帮助学习者掌握大数据处理的核心技术和华为...

    大数据 HCIA-Big Data H13-711考题.docx

    本文档提供了大数据 HCIA-Big Data H13-711 考题的详细解析和知识点总结,涵盖了 Flink、FusionInsight HD、HBase、Hive、Flume、Spark、Kafka 等大数据相关技术的知识点。 一、Flink Barrier Flink Barrier 是 ...

    bigdata大数据学习与经验总结

    本资料集“bigdata大数据学习与经验总结”旨在分享关于大数据技术的学习路径、实践经验和应用案例,帮助读者深入理解大数据的核心概念、技术栈及其在实际业务中的应用。 首先,大数据的基础概念包括3V模型——...

    华为HCIA-Big Data V3.0大数据培训教材和实验手册.rar

    华为作为全球领先的ICT解决方案供应商,推出了HCIA-Big Data V3.0认证,旨在培养具备大数据基础理论、技术和应用能力的专业人才。本篇将围绕华为HCIA-Big Data V3.0培训教材和实验手册中的关键知识点进行深入探讨,...

    bigdata大数据时代读书笔记精华观点和核心语句.pdf

    《大数据时代》这本书的核心观点和精华语句集中在大数据的特点、应用以及由此引发的思维方式变革上。在大数据时代,我们不再过于追求数据的精确度和因果关系,而是转向接受数据的混杂性和探索相关关系。 首先,书中...

    bigdata《大数据时代》读书笔记-精华观点和核心语句.pdf

    bigdata《大数据时代》读书笔记-精华观点和核心语句.pdf

    big data大数据时代

    一篇详细介绍大数据时代的文章。文章给出了很多观点,值得一读,希望想了解这方面的人可以阅读一下,文章非常客观,主题非常明确,思想突出,很有韵味

    农业大数据应用体系架构和平台建设方案

    总的来说,农业大数据应用体系架构和平台建设是推动我国农业现代化、实现农业可持续发展的重要途径。通过深入挖掘和利用农业大数据,我们可以实现农业的高效、环保、可持续和智能化,从而提高农产品的质量,增强农业...

    华为HCIE-Big Data【大数据】培训教材与实验指导手册.zip

    《华为HCIE-Big Data大数据培训教材与实验指导手册》是一部深入探讨华为在大数据领域的专业知识和技术实践的综合资源。此资料包包含了一系列针对HCIE-Big Data认证的学习材料,旨在帮助学习者掌握大数据的核心概念、...

    华为HCIA-Big Data【大数据】_培训教材和实验指导手册.zip

    【华为HCIA-Big Data大数据】培训教材与实验指导手册主要涵盖了大数据技术的基础知识、华为在大数据领域的解决方案以及相关的实操技能。此资料是针对华为认证的信息与通信技术(ICT)专家体系中的“HCIA-Big Data”...

    bigData大数据实战经验和ppt详解

    图计算技术应用探索.pptx; 券商大数据平台实践以及应用探讨—华泰证券李文强.pdf;...基于spark集群的券商个性化推荐系统架构设计最佳实践.pdf 基于Spark的数据湖项目初步实践.pdf 大数据建设及应用分享_20170923.pptx

    HCIA-Big_Data(大数据)PPT教材V2.0.zip

    第01章大数据行业与技术趋势pptx 第02章HDFS分布式文件统.pptx 第03章MapReduces分布式离线批处理和arm资源i调pptx 第04章Spark2x基于内存的分布式计算Pptx 第05章HBase分布式NoSQL据车pptx 第06章Hive分布式数据...

    一个基于流式机器学习算法的大数据实时计算架构.pdf

    本文介绍了基于流式机器学习算法的大数据实时计算架构的设计和实现。该架构旨在满足大数据实时计算的理论要求,能够实时处理海量数据,并提供了一个基于流式机器学习算法的大数据实时计算系统。 知识点: 1. 机器...

    big data 大数据

    大数据技术是一个涉及多方面的信息技术领域,本文档专注于介绍和分析在大数据背景下,如何在单次动态数据流中有效地维护密集子图问题的一个空间和时间效率算法。 在大数据分析中,尤其是在图形挖掘领域,一个核心...

Global site tag (gtag.js) - Google Analytics