`

大数据学习笔记(一)【原创】

阅读更多
新年,公司开始建设大数据中心项目,因此架构组需要对相关技术进行研究。原先对大数据相关技术已有耳闻,但是实际项目没用,很少去深入关注。这里先把一些技术的理解记一下:
1.hadoop 我的理解是一个大数据处理框架,包括了hdfs, hbase, yarn, hive, zookeeper等一堆技术,其中的处理算法是MapReduce.
2.hdfs 是海量分布式文件系统,一般hadoop批量任务都需要依赖hdfs上的资源文件。
3.hbase 一种KV数据库,跟redis相似,hbase以磁盘存储为主,redis以内存为主。
4.yarn 任务调度管理
5.mapreduce 是批处理算法,先把资源分成一个个map处理,然后通过reduce聚合汇总,实现集群处理。
6.hive mapreduce相当于低级的接口,比较难用.hive是让用户能够通过类似sql脚本,来调用mapreduce,相当于高级接口。如果做个比喻, mapreduce相当于汇编语言, hive相当于c语言。
7.zookeeper 任务协调系统
8.spark 是一个比较先进的大数据处理框架,因为hadoop的mapreduce性能比较慢,spark可以利用更少的资源实现更快的速度。
9.DAG 有向非闭合图,就是流程没有循环吧
10.RDD 弹性数据集,只能执行有限操作如join,group等的只读内存记录集。
11.shark 因为hive原先只支持hadoop, 所以shark是为了hive on spark。后来hive支持spark后停更。
12.hive on spark 支持spark的hive.
13.sparksql 因为shark是基于hive上改的,保留了大量hive的代码,在shark停更之后,重新开发了sparksql.
14.spark streaming 是spark的流处理框架。因为hadoop只能跑批,spark streaming则能实时计算,例如需要对一些业务进行实时预警。能够与spark技术栈无缝集成,其实是将实时数据按时间分割跑批,所以实时性只能达到秒级。要是早达到毫秒级,需要用其他技术。
15.storm 是大数据流处理框架。相比spark,实时性高,能达到毫秒级,吞吐量小,需要一条一条处理。
16.mesos 与yarn类似,也是资源调度管理器。
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    阿里云大数据ACA笔记.docx

    阿里云的认证考试太难了,并且考大数据方向的人太少了,笔记也少,我整理了一点笔记,给大家分享下 ,给大家参考下 ,给大家学习下 ,希望你也能提供原创笔记

    Redis学习笔记大全

    Redis学习笔记大全 Redis是当前使用最广泛的NoSQL数据库之一,具有高性能、低延迟和支持事务等特点。本文将对Redis的基本概念、安装、启动、关闭、基本命令、5大数据类型、发布和订阅、Bitmaps和HyperLoglog等进行...

    Hinton 神经网络与机器学习笔记(TingxunShi)

    当前,随着计算能力的提升和大数据的普及,机器学习技术在多个领域取得了突破性进展。在学习和应用机器学习时,理解其背后的原理和应用场景是非常重要的。通过Hinton教授的笔记,我们可以看到神经网络和机器学习在...

    cousera吴恩达deeplearning.ai汇总笔记(非原创)

    随着计算能力的提升和大数据的普及,深度学习已经成为了科技行业最热门的技能之一。深度学习不仅改变了计算机处理信息的方式,而且对于医疗、自动驾驶、自然语言处理以及音乐生成等众多领域均产生了深远的影响。掌握...

    97 Things Every Programmer Should Know 等 24 本书

    AngularJS学习笔记(checkcheckzz).epub Everything curl.epub F# for Fun and Profit eBook.epub Gradle 实战.epub iOS的函数响应型编程.epub JVM必知必会.epub Kubernetes 指南.epub LeetBook(LeetCode详解)....

    创业计划书-互联网项目-教育网站平台完整商业计划书

    4. 资源分享:建立开放平台,鼓励用户分享原创教程、课件、笔记等学习资源。 三、技术实现 1. 平台架构:采用云计算技术,保证高并发访问和数据安全。 2. 用户体验:优化前端界面,确保流畅的浏览和操作体验。 3...

    Algorithms for Big Data Lecture Notes (UIUC CS598CSC)

    **评分标准**:成绩基于4-5次作业、撰写一次讲座笔记以及完成一个课程项目。具体评分细节待定。 **课程目标**:随着大数据成为当前的热门话题,本课程将教授一系列基础的算法和技术,这些技术不仅历史悠久,而且在...

    鲲鹏HCIA系列笔记题库汇总V1.1.pdf

    根据给出的文件信息,以下是关于“鲲鹏HCIA系列笔记题库汇总V1.1.pdf”中的知识点汇总: ### 鲲鹏生态介绍 #### 计算产业发展趋势 1. **PC向移动端迁移**:随着移动设备的普及和便携性需求的提升,个人计算机的工作...

    《Python数据分析基础》笔记:“TypeError, ‘int’ object is not iterable”

    学习《Python数据分析基础》第3章最后一个例子:为每个工作簿和工作表计算总数和均值时,在pandas 实现这个例子中的data 处出现报错 此处原例子没有添加str(),但是我运行是出现报错 TypeError, ‘int’ object is ...

    ACAMICA-DS-ONLINE-33:创建以下存储库是为了与Acámica共享2020年至2021年在数据科学家职业生涯中开发的项目

    "学术诚实"的提及意味着在使用这些笔记或项目时,应当尊重原创性,遵循适当的引用规则,避免抄袭。 从标签“JupyterNotebook”我们可以推断,压缩包内的文件很可能是.ipynb格式的Jupyter Notebook文档。这些文档...

    java8集合源码分析-javaLearner:java学习者

    进大厂笔记:open_book::ledger:】未来的你一定会感谢今天学习的自己! 本项目主打Java基础、算法、框架实战、源码、中间件、大数据、面试等知识积累和经验总结。文章共300多篇, 大部分为原创, 部分翻译和转载已标明...

Global site tag (gtag.js) - Google Analytics