Hadoop基础教程笔记第一章

HarborChung

浏览: 157164 次
性别:
来自: 北京

最近访客更多访客>>

leimingchao

ahww520

xushaomin1122

ecnuh

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop

Hadoop

Hadoop笔记--S1

1.1大数据处理的两种方法区别及联系

1.1.1向上扩展:

实现途径：迁移软件之更高硬件的服务器上进行处理。

优点，系统架构并不会随着数据量的增大而发生显著变化。尽管采用了更大型的不见，但部件之间的基本关系(例如数据服务器和存储矩阵)却依然保持一致。

1.1.2向外扩展:

实现途径：并不是通过升级系统硬件来获得更强大的处理能力，而是将数据处理任务分发给更多的机器。

优点采购成本降低，但软件成本会随处理能力的增长而激增。

1.1.3联系:向上拓展架构的必然趋势是加入向外拓展的策略，将二者结合起来。综合吸收了两种方法的部分优点，但也综合了两种方法的缺陷和成本：但一的方法要么需要昂贵的硬件，要么需要手动开发跨集群的逻辑，而在混合架构中缺一不可。

1.1.4向上扩展架构的终极趋势和成本曲线导致其在大数据领域鲜有应用，而向外扩展的架构却成了事实上的标准。

注意:如果要处理的数据涉及到很强的内部交叉引用，并需要保证事务的完整性，那么应基于向上拓展架构。

1.1.5集群中的一个系统应尽可能的保持相互独立。不应使用同一个共享存储系统保存所有数据，如果此节点宕机将会导致整个工作瘫痪，所以应避免此种情况发生。

1.1.6系统可用性的计算方法

系统可用性=各个不可缺失节点可用性的积

如:系统至少5台可靠性为99.99%的服务器,才可运行。那么该系统的可用性为5*99.99%=95%

系统正常运行时间与各个组件的可靠性临界点相关。

1.2.1Hadoop的组成部分

最主要的两个子项目是HDFS(Hadoop分布式文件系统)和MapReduce。

HDFS是一个可以存储极大数据集的文件系统，他是通过向外扩展的方式构建的主机集群。有着独特的设计和性能特点，以时延为代价对吞吐量进行优化，并且通过副本替换冗余达到了高可靠性。

MapReduce是一个数据处理范式，规范了数据在两个处理阶段(被称为Map和Reduce)的输入和输出，并将其应用于任意规模的大数据集。

其二者紧密结合，确保在任何情况下，MapReduce任务直接在存储所需数据的HDFS节点运行。

1.2.2HDFS简介

1)通常以最小64M存储数据块文件

2)在时延的基础上对吞吐量进行了优化能够高效处理对大文件的读请求流，但不擅长对小文件的定位请求

3)对普遍的“一次写入，多次请求”的工作负载进行了优化

4)每个存储节点上运行着一个称为DataNode的进程,它管理者相应主机上的所有数据块。这些存储节点由名为NameNode的主进程协调，该进程运行在一台独立的主机上。

5)使用副本来处理故障。每个由文件组成的数据块存储在集群多个节点，HDFS的NameNode不断监视各个DataNode发来的报告，以确保发生故障时,任意数据块的副本数量都大于用户配置的复制因子。否则NameNode将会在集群中调用新增一个副本。

1.2.3MapReduse简介

关键的基本概念是”分而治之”。基本原则是将但个问题分解成多个独立的子任务并发执行。

仅要求将数据以一系列键值对的形式传递给map函数。map函数的输出是其他键值对的集合。reduce函数收集汇总最终的结果数据集。

一个典型的MapReduce作业包括多个mapper和reducer，通常这些mapper和reducer并不是很简单。Hadoop平台负责执行数据处理的各个方面。当执行MapReduce作业时，Hadoop决定在哪台主机执行代码才能最高效的处理数据集。如果不进行与HDFS的组合使用那么在哪台主机执行代码并不重要，因为存储系统本身是一个会引发竞争的共享系统。但如果使用HDFS作为存储系统，基于移动数据处理程序比迁移数据本身成本更低的原则，MapReduce就可以在存储目标数据的节点上执行数据处理过程了。HDFS与MReduce集群部署在同一组服务器上。其中每台服务器不仅承载了待处理数据及管理这些数据的HDFS组件，同时也承载了调度和执行数据处理过程的MapReduce组件。当Hadoop接收到作业后，尽可能对驻留在主机上的数据调度进行优化，达到网络流量最小化和性能最大化的目标。

注：主机或服务器通常指的是承载各种Hadoop组件的物理硬件。节点指的是作为集群组成部分的软件部件。

纯手打,仅供个人学习使用.

0
顶

1
踩

分享到：

Hadoop理论部分--HDFS文件系统祥解 | mvn 自动部署脚本

2016-08-20 20:34
浏览 566
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python学习笔记第二版: 综上所述，《Python学习笔记第二版》是一份针对有一定编程基础的学习者的参考资料，详细介绍了Python的基本概念和核心特性，并通过具体的例子帮助读者更好地理解和掌握Python编程。此外，还提及了Linux公社这一专业...

尚硅谷大数据项目之电商数仓用户行为采集平台1: 【尚硅谷大数据项目之电商数仓用户行为采集平台1】是一个综合性的教程，旨在教授如何构建一个电商领域的数据仓库，特别关注用户行为数据的采集。本项目涵盖了从数据仓库的基本概念到具体实施的各个阶段，包括项目...

WinCC嵌入式Excel报表系统：实现高效自动化报表生成与数据分析: 内容概要：本文详细介绍了WinCC嵌入式Excel报表系统的功能和优势。该系统利用VBS脚本和Excel模板相结合的方式，能够直接从WinCC变量归档库读取数据并生成高质量的报表。文中展示了多种实用的技术细节，如数据质量校验、不同数据处理模式（实时值、平均值、累计值）、模板机制、报表控件集成以及条件格式的应用。此外，还提供了具体的代码示例来解释如何实现这些功能。适用人群：适用于从事工业控制系统开发、维护的技术人员，尤其是那些需要频繁处理报表任务的人群。使用场景及目标：主要应用于需要快速生成各类生产数据报表的场合，如日报表、月报表等。通过该系统可以极大提高工作效率，减少人工干预，确保数据准确性，并且降低了学习成本和技术门槛。其他说明：该系统不仅支持多版本兼容，而且移植性强，能够在不同的WinCC环境中轻松部署。同时，它还允许用户通过简单的Excel模板修改来自定义报表格式，满足多样化的业务需求。

【信息安全领域】实战项目：渗透测试与漏洞利用技术详解及权限提升方案设计介绍了信息安全领域的一个: 内容概要：本文档《信息安全领域实战项目.docx》详细介绍了网络安全渗透测试的具体步骤和实战案例。文档从信息收集开始，逐步深入到漏洞验证、漏洞攻击和权限提升等环节。首先，通过使用工具如FOFA进行资产收集，识别出目标服务器开放的多个端口，并进一步通过后台扫描工具发现潜在的敏感文件。接着，针对发现的Grafana任意文件读取漏洞（CVE-2021-43798）和ActiveMQ任意文件上传漏洞（CVE-2016-3088），分别进行了详细的漏洞验证与攻击演示，包括具体的payload构造、利用方式及攻击效果展示。最后，探讨了CVE-2021-4034 Linux polkit提权漏洞的应用场景及其利用方法。此外，文档还涵盖了政务智慧信息系统安全建设项目的背景、目标、建设内容以及相关的人才需求分析。适合人群：具备一定网络安全基础，尤其是对渗透测试感兴趣的初学者或中级技术人员。使用场景及目标：①帮助读者理解并掌握从信息收集到漏洞利用的完整渗透测试流程；②提供实际操作案例，使读者能够学习如何识别和利用常见的Web应用漏洞；③培养读者在面对真实世界的安全问题时，能够运用所学知识进行有效的分析和解决。阅读建议：由于文档内容涉及较多的技术细节和实战操作，建议读者在阅读过程中结合实际环境进行练习，并参考官方文档或其他权威资料加深理解。同时，注意合法合规地使用所学技能，确保所有活动都在授权范围内进行。

电动汽车动力系统仿真的关键技术：双向DCDC变换器与电机控制策略: 内容概要：本文详细介绍了电动汽车动力系统的仿真技术，涵盖双向DCDC变换器的能量反馈机制和支持异步电机与永磁同步电机的仿真。文中展示了多个关键控制策略，如电流环控制、最大转矩电流比（MTPA）控制、弱磁控制以及基于事件触发的协调控制。通过MATLAB、Python和C等多种编程语言的具体代码实例，解释了如何实现高效的能量管理和电机控制。此外，文章还讨论了仿真过程中遇到的实际问题及其解决方案，如电压过冲、电流振荡和系统耦合等问题。适合人群：从事电动汽车研究与开发的技术人员、高校相关专业师生、对电动汽车动力系统感兴趣的工程师。使用场景及目标：适用于电动汽车动力系统的设计与优化，帮助工程师理解和掌握双向DCDC变换器的工作原理及电机控制策略，提高能量利用效率，确保系统稳定性。其他说明：文章不仅提供了详细的理论和技术背景，还分享了许多实践经验，有助于读者更好地将理论应用于实际项目中。

石油工程中基于深度学习的FracPredictor裂缝建模与压裂模拟技术解析: 内容概要：本文详细介绍了FracPredictor这一基于深度学习的裂缝预测工具及其应用。首先探讨了数据处理部分，如利用滑窗处理时序+空间特征混合体的方法，以及如何将岩石力学数据转换为适合神经网络的格式。接着深入剖析了模型架构，包括时空双流网络、注意力机制用于跨模态融合、HybridResBlock自定义层等创新设计。此外，文章还分享了训练技巧，如渐进式学习率衰减、CosineAnnealingWarmRestarts调度器的应用。对于可视化方面，则推荐使用PyVista进行三维渲染，以直观展示裂缝扩展过程。文中还提到了一些实用的小技巧，如数据预处理中的自动标准化、配置文件参数调整、以及针对特定地质条件的优化措施。最后，通过多个实际案例展示了FracPredictor在提高预测准确性、降低计算成本方面的优势。适合人群：从事石油工程、地质勘探领域的研究人员和技术人员，尤其是对裂缝建模与压裂模拟感兴趣的从业者。使用场景及目标：适用于需要高效、精准地进行裂缝预测和压裂模拟的工程项目。主要目标是帮助用户掌握FracPredictor的工作原理，学会从数据准备到结果可视化的完整流程，从而优化压裂方案，减少工程风险。其他说明：文章不仅提供了详细的代码示例，还附带了丰富的实战经验和注意事项，有助于读者更好地理解和应用这项新技术。

multiSIM视频教程-电路创建和基本功能测试.zip: multisim

基于ssm的房产中介信息管理系统(源码+数据库)135: 基于ssm的房产中介信息管理系统：前端 html、jquery、layui，后端 maven、springmvc、spring、mybatis；角色分为管理员、员工；集成卖家信息，买家信息，房屋管理等功能于一体的系统。 ## 功能介绍 - 用户管理：用户信息的增删改查，按用户名搜素 - 通知公告：公告信息的增删改查，关键词搜索 - 卖家信息：卖家信息的增删改查，关键词搜索 - 买家信息：买家信息的增删改查，关键词搜索 - 房屋管理：房屋信息的增删改查，按小区名称搜索，房屋图片上传 - 房屋搜索：房屋列表查询，查询满足条件的房屋信息 ## 环境 - IntelliJ IDEA 2021.3 - Mysql 5.7.26 - Tomcat 7.0.73 - JDK 1.8

基于ssm的学生资助管理系统(源码+数据库)147: 基于ssm的学生资助管理系统：前端 jsp、jquery，后端 springmvc、spring、mybatis；角色分为：管理员、学生；集成OA流程管理、贫困生认定、奖学金管理等功能于一体的系统。 ## 功能介绍 - 系统管理：权限管理，菜单管理，在线管理，日志管理，系统用户管理 - OA流程管理：工作流程（模型管理，流程管理，运行中流程，历史的流程），任务管理，消息管理 - 贫困生认定管理：贫困生认定申请，申请材料审核，上报院校审批 - 国家助学金管理：国家助学金申请，申请材料审核，上报院校审批 - 勤工俭学管理：学生基本信息，勤工岗位信息，学生勤工信息 - 公告管理：公告信息的增删改查 ## 环境 - IntelliJ IDEA 2021.3 - Mysql 5.7.26 - Tomcat 7.0.73 - JDK 1.8

芬朗A12U电脑调音软件是专为音响爱好者和专业人士设计的一款强大工具,喜欢的话，直接下载吧: 芬朗A12U电脑调音软件是专为音响爱好者和专业人士设计的一款强大工具,喜欢的话，直接下载吧

基于ssm的学生成绩管理系统(源码+数据库)206: 基于ssm的学生成绩管理系统：前端 jsp、jquery、bootstrap，后端 maven、springmvc、spring、mybatis；角色分为管理员、学生；集成用户管理，成绩管理，公告管理等功能于一体的系统。 ## 功能介绍 - 基本功能：登录，注册，退出，密码修改 - 用户管理：用户信息的增删改查，用户也可以由学生自行注册，管理员可以修改和删除用户信息，学生只能操作自己的信息 - 成绩管理：管理员对成绩信息的增删改查，学生只能查询 - 公告管理：管理员对公告信息的增删改查，学生只能查看 ## 环境 - IntelliJ IDEA 2021.3 - Mysql 5.7.26 - Tomcat 7.0.73 - JDK 1.8

深度学习基于PyTorch的快速轻量级通道注意力机制（FFCM）：EfficientNet模型改进与应用: 内容概要：本文介绍了一种快速轻量级的通道注意力机制（FFCM），并通过修改MBConv模块将其应用于EfficientNet模型中。FFCM由局部通道交互和全局通道交互两部分组成。局部通道交互通过深度可分离卷积实现，全局通道交互则采用全局平均池化和两个卷积层来减少通道维度并恢复。为了将FFCM集成到MBConv模块中，定义了`add_ffcm_to_mbconv`函数，该函数在MBConv模块的前向传播过程中插入FFCM模块。最后，通过`create_model`函数创建了一个带有FFCM的EfficientNet模型，并修改了分类头以适应不同的类别数量。代码还展示了如何加载预训练权重以及模型的测试输出。; 适合人群：对深度学习有一定了解，特别是熟悉卷积神经网络和注意力机制的研究人员或工程师。; 使用场景及目标：①理解快速轻量级通道注意力机制（FFCM）的设计思路及其在卷积神经网络中的应用；②掌握如何修改现有的卷

社交媒体-短视频发布-用户互动-测试平台-1744736861.zip: 社交媒体_短视频发布_用户互动_测试平台_1744736861.zip

油气田开发中CO2驱水的二阶PDE两相流模拟及COMSOL应用: 内容概要：本文详细介绍了使用COMSOL进行CO2驱水的二阶偏微分方程（PDE）两相流模拟的方法和技术细节。主要内容涵盖核心控制方程（如达西定律和质量守恒方程）、相对渗透率模型的选择（如Corey模型和Brooks-Corey模型）、边界条件的设置、求解器配置以及后处理技巧。文中强调了超负压驱替现象的模拟及其重要性，并提供了多个具体的操作实例和优化建议，确保模型的稳定性和准确性。适合人群：从事油气田开发、碳捕集与利用封存（CCUS）研究的专业技术人员，以及对多物理场耦合仿真感兴趣的科研人员。使用场景及目标：适用于油气田开发过程中CO2驱水模拟的研究项目，旨在提高采收率并评估碳封存效果。主要目标是通过精确的数学模型和高效的数值方法，模拟CO2和水在孔隙介质中的动态交互过程，从而优化注入策略和预测驱替效果。其他说明：文中提供的MATLAB代码片段和COMSOL操作指南有助于读者快速上手实践。同时，文章还讨论了常见的数值问题及其解决方案，如数值震荡、模型发散等，帮助读者规避常见错误并提高模拟的成功率。

基于COMSOL的地应力平衡与隧道开挖及衬砌支护仿真技术详解: 内容概要：本文详细介绍了使用COMSOL进行隧道开挖及衬砌支护仿真的全过程，涵盖地应力平衡、开挖模拟、衬砌支护等关键技术环节。首先强调了地应力平衡的重要性，包括重力补偿、初始应力场设置等。接着阐述了开挖模拟的具体方法，如材料切换、几何非线性选项的应用。然后讲解了衬砌支护的实施细节，涉及壳接口创建、接触条件设置等。最后讨论了分步求解策略以及常见问题的解决方案，如应力奇点处理、网格优化等。适合人群：从事岩土工程仿真、隧道工程施工及相关领域的工程师和技术人员。使用场景及目标：适用于需要进行隧道开挖及支护仿真的工程项目，旨在帮助用户掌握COMSOL软件在此类应用中的具体操作方法，提高仿真精度和效率。其他说明：文中提供了大量实用技巧和注意事项，如参数设置、代码片段等，有助于读者更好地理解和应用相关技术。同时提醒读者关注实际项目的具体情况，灵活调整参数以获得最优结果。

C++与OpenCV实现高效工业检测模板匹配框架：支持多形态ROI与并行加速: 内容概要：本文详细介绍了作者使用C++和OpenCV构建的一个高效的模板匹配框架，适用于工业检测场景。该框架支持创建带有旋转角度的矩形ROI、圆形ROI以及环形ROI，并提供了手绘屏蔽功能来提高模板制作的灵活性。为了加快匹配速度，采用了多尺度金字塔加速、并行计算和亚像素级定位优化等技术手段。此外，文中还分享了一些实际应用案例和技术难点解决方案，如硬币分类计数、PCB板元件计数等。适合人群：有一定C++和OpenCV基础，从事机器视觉或工业自动化相关领域的工程师。使用场景及目标：①用于工业生产线上的物体检测与分类；②提高模板匹配的速度和准确性；③解决复杂背景下目标识别的问题。其他说明：文中不仅展示了具体的代码实现，还讨论了许多实践经验，包括性能优化技巧、常见错误及其规避方法等。对于希望深入了解模板匹配算法并在实际项目中应用的人来说非常有价值。

分享一个快速执行脚本的工具OneClicker 最新版: 工作的时候，有很多琐碎的事情需要重复的做比如打开某个文件，打开某个网站，打开某个软件这个时候可以写个自动脚本，把机械琐碎的事情交给脚本处理但是脚本一多，不好管理，而且要选择哪个脚本也是个麻烦的事情所以写了OneClicker，快捷键呼出脚本的管理界面，脚本也绑定快捷键在任何一个地方，只要按两三个按键，就可以执行某个脚本，处理掉琐碎事情使用的流程配置 1、function文件夹加上批处理脚本 2、运行软件OneClicker.exe 3、配置脚本的快捷键使用 1、按Ctrl + K，弹出界面 2、再按脚本的快捷键，注意输入法是要英文的例子：打开百度：先按Ctrl + K，再按B 关闭 1、点解界面右上角的关闭按钮，不会退出软件，只是最小化到托盘 2、想要退出软件，可以在任务栏或者托盘右键关闭

基于MATLAB的心音信号自适应滤波降噪：LMS、NLMS、变步长LMS及RLS算法的应用: 内容概要：本文详细介绍了基于MATLAB实现的多种自适应滤波算法用于心音信号降噪的方法和技术。首先阐述了LMS（最小均方）算法的基本原理及其简单实现，接着讨论了归一化LMS（NLMS）、变步长LMS两种改进版本的特点和优势，并提供了相应的Matlab代码示例。最后深入探讨了RLS（递归最小二乘法）算法，在理论层面解释了其为何能在降噪效果上超越前两者，并附上了完整的代码实现。文中还给出了具体的实验数据对比，展示了各算法在不同条件下的性能差异。适用人群：从事生物医学信号处理的研究人员、工程师以及对自适应滤波感兴趣的高校师生。使用场景及目标：适用于需要对心音信号进行高质量降噪处理的实际应用场景，如临床诊断辅助设备的研发；同时也可以作为教学材料帮助学生理解自适应滤波的工作机制。其他说明：文中不仅提供了详细的算法解析，还包括了许多实用的经验分享和技术细节提示，有助于读者更好地掌握并应用于实践中。此外，作者还强调了一些常见的误区和注意事项，提醒使用者避免不必要的错误。

基于ssm+jsp的虚拟商品管理系统(源码+数据库)241: 基于ssm+jsp的虚拟商品管理系统：前端 jsp、jquery，后端 maven、springmvc、spring、mybatis；角色分为管理员、用户；集成促销商品、商品购买、购物车、订单查询等功能于一体的系统。 ## 环境 - IntelliJ IDEA 2021.3 - Mysql 5.7.26 - Tomcat 7.0.73 - JDK 1.8

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论