hadoop学习笔记1

韩悠悠

浏览: 849762 次
性别:
来自: 深圳

最近访客更多访客>>

ningzong

mumume123

yusip

a6892509

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hadoop能解决哪些问题？
1、海量数据需要及时分析和处理
2、海量数据需要深入分析和挖掘
3、数据需要长期保存
问题：
1、磁盘IO成为一种瓶颈，而非CPU资源。
2、网络带宽是一种稀缺资源
3、硬件故障成为影响稳定的一大因素。
Hadoop生态系统介绍
Hbase
1、Nosql数据库，Key-Value存储
2、最大化利用内存

HDFS
1、hadoop distribute file system分布式文件系统
2、最大化利用磁盘
MapReduce
1、编程模型，主要用来日志分析
---------------------------------
HDFS设计原则
1、文件以块（block）方式存储
2、每个块带下去远比多数文件系统来的大（预设64M）
3、通过副本机制提高可高度和读取吞吐量
4、每个区块至少分到三台DateNode上
5、单一master(NameNode)来协调存储单一数据（metadate)
6、客户端对文件没有缓冲机制(No data caching)
-----------------------------------------
NameNode(NN)
1、NameNode主要功能提供名称查询服务，它是一个jetty服务器
2、NameNode保存metadate信息，包括文件owership和permissions、文件包含哪些快、Block保存在哪个DateNode(由DateNode启动时上报）
3、NameNode的metadate信息在启动后会加载到内存
4、metadate存储到磁盘文件名为"fsimage"
---------------------------------------------
DateNode(DN)
1、保存Block
2、启动DN线程的时候会向NN汇报block信息。
3、通过向NN发送心跳保持与其联系（3秒钟一次），如果NN10分钟没有收到DN的心跳，则认为其已经Lost，并copy其上的block到其他DN。

----------------------------------------------
Block的副本放置策略
1、第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
2、第二个副本：放置在于第一个副本不同的机架的节点上。
3、第三个副本：放置在与第二个副本相同集群的几点。
4、更多副本：随机节点。
-----------------------------------------------
再说Block
1、设置一个Block64MB，如果上传文件小于该值，仍然会占用一个Block的命名空间（NameNode metadate)，但是物理存储上不会占用64MB的空间。
2、Block大小和副本数由Client端上传文件到HDFS时设置，其中副本数可以变更，Block是不可以再上传后变更的。
-----------------------------------------------
数据损坏（corruption)处理
1、当DN读取block的时候，它会计算checksum
2、如果计算后的checksum，与block创建时值不一样，说明该block已经损坏。
3、client读取其他DN上的block；NN标记该块已经损坏，然后复制block达到预期设置的文件备份数。
4、DN在其文件创建后三周验证其checksum
-----------------------------------------------------
SecondaryNameNode(SNN)
1、它不是NN的热备份
2、它可以作为冷备份，将本地保存的fsimage导入，修改cluster所有DN的NameNode地址，修改所有client端NameNode地址或者修改SNN IP为原NNIP
3、它的工作是帮主NN合并edits log，减少NN启动时间。
-----------------------------------------------
HDFS文件权限
1、与Linux文件权限相识
2、r:read;w:write;x:execute，权限x对于文件忽略，对于文件表示是否允许访问其内容
3、如果Linux系统用户zhangshan使用hadoop命令创建一个文件，那么这个文件在HDFS中owner就是zhangsan
-----------------------------
安全模式
1、namenode启动时候，首先将影像文件(fsimage）载入内存，并执行编辑日志(edits)中的各项操作。
2、一旦在内存中成功建立文件系统元数据映射，则创建一个新的fsimage文件（这个操作不需要secondaryNameNode)和一个空的编辑日志。
3、NameNode开始监听RPC和HTTP请求。
4、此刻namenode运行在安全模式，即namenode的文件系统对于客服务端来说是只读的（显示目录，显示文件内容等，写、删除、重命名会失效）。
5、系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中。
6、在系统的正常操作期间，namenode会在内存中保留所有块位置的映射信息。
7、在安全模式下，各个datanode会向namenode发送块列表的最新情况。
8、进入和离开安全模式
    查看namenode处于哪个状态
   hadoop dfsadmin -safemode get
进入安全模式（hadoop启动的时候在安全模式）
   hadoop dfsadmin -safemode enter
   离开安全模式
   hadoop dfsadmin -safemode leave

raplication表示默认拷贝几份文件。
------------------------------------
HDFS开发常用的命令
创建一个文件夹？hadoop fs -mkdir /user/hadoop/20120722
上传一个文件？ hadoop fs -put(copyFormLocal) word.txt /user/hadoop/user2.txt
删除一个文件夹和文件？ hadoop fs -rmr /user/hadoop/user2.txt
查看一个文件夹里面有哪些文件？ hadoop fs -ls /user/hadoop
查看某个文件的内容？ hadoop fs -text(cat、tail) /user/hadoop/user2.txt

分享到：

localhost: Error: JAVA_HOME is not set. | HDFS 的体系结构

2013-08-20 17:40
浏览 1237
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于单片机的科学型计算器设计(51+1602+KEY40)#0067: 包括：源程序工程文件、Proteus仿真工程文件、配套技术手册等 1、采用51/52单片机作为主控芯片； 2、采用1602液晶显示； 3、采用5*8矩阵键盘输入； 4、功能键包括：复位键(RST)，回删键(DEL)，确定键(OK)，第二功能切换(2U)，背光灯键(LED)； 5、运算均为单精度浮点数，包括：加(+)，减(-)，乘(x)，除(÷)， e底指数(e^n)，N次方(x^n)，开N次方(sqrt)，正弦(sin)，余弦(cos)，正切(tan)，对数(log)，阶乘(n!)(n<35），排列(Arn)，累加(∑)， *开启第二功能(2U)后可用：反正弦(asin)，反余弦(acos)，反正切(atan)，组合(Crn)

基于三菱FX2N PLC的机械手控制系统设计与实现: 内容概要：本文详细介绍了如何利用三菱FX2N系列PLC构建机械手控制系统。主要内容涵盖电路图设计、IO表配置、源程序编写以及单机组态。文中提供了具体的梯形图编程实例，展示了如何通过PLC精确控制机械手的各种动作，如抓取、移动和放置。此外，还分享了许多实用的调试技巧和注意事项，强调了传感器状态交叉验证和关键动作的时间守护机制。通过这些内容，读者可以全面了解PLC在机械手控制中的应用。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程和机械手控制感兴趣的初学者和有一定经验的研发人员。使用场景及目标：适用于需要设计和实施机械手控制系统的工业场合，帮助工程师掌握PLC编程技巧，提高机械手控制系统的稳定性和可靠性。其他说明：文章不仅提供理论指导，还包括大量实战代码和调试经验，有助于读者快速上手并在实践中不断优化系统性能。

豆包生成美女的AI提示词基于豆包平台的美女图像生成提示词: 内容概要：本文档提供了用于生成具有时尚性感元素的美女跳舞图像的提示词指南。文档内容包括角色设定为擅长描绘时尚与超现实主义图片的创作者，背景设定强调女性形象，偏好展现性感漂亮女孩的镜头表达。目标在于根据用户指令创作三幅统一风格的图像，注重色彩搭配和高清效果，同时确保每张图片都具备半身像、真实感和电影效果的特点。文档还给出了具体的输出示例，详细描述了人物形象、服装搭配以及场景布置等要素，旨在为用户提供满意的图像生成服务。; 适合人群：对图像生成感兴趣，尤其是喜欢带有时尚性感元素的美女图像的用户。; 使用场景及目标：①根据用户提供的简单场景信息（如户外或室内）生成三幅不同场景但风格统一的赛博朋克风格美女跳舞图像；②确保生成的图像符合特定的要求，如半身像、真实感、电影效果、性感服装、特定灯光效果等；③通过询问用户对生成图像的满意度来保证服务质量。; 其他说明：文档明确了图像生成的工作流程，从接收用户指令到根据反馈调整生成内容，确保整个过程高效且满足用户需求。同时，文档还限制了生成图像的具体条件，如场景必须为赛博朋克风格、不能出现鞋子和其他人等，以保证图像的独特性和一致性。

蓝桥杯大赛模拟题PDF: 题目描述 1.问题描述一个正整数如果任何一个数位不大于右边相邻的数位，则称为一个数位递增的数，例如1135是一个数位递增的数，而1024不是一个数位递增的数。给定正整数n，请问在整数1至n中有多少个数位递增的数? 输入格式输入的第一行包含一个整数n。输出格式输出一行包含一个整数，表示答案。样例输入 30 样例输出

基于非对称纳什谈判的多微网电能共享优化策略及其MATLAB实现: 内容概要：本文详细介绍了基于非对称纳什谈判的多微网电能共享运行优化策略及其MATLAB代码实现。首先阐述了纳什谈判和合作博弈的基本理论，然后将多微网电能共享合作运行模型分解为微网联盟效益最大化和合作收益分配两个子问题。文中展示了如何通过交替方向乘子法（ADMM）进行分布式求解，确保各微网隐私安全。此外，还探讨了电转气（P2G）和碳捕集（CCS）设备的应用，以实现低碳调度。最后，通过具体代码示例解释了模型的构建、求解及优化过程。适合人群：对电力系统优化、博弈论、MATLAB编程感兴趣的科研人员和技术开发者。使用场景及目标：适用于希望深入了解多微网电能共享优化策略的研究者，旨在提高微网联盟的整体效益并实现公平合理的收益分配。同时，该策略有助于降低碳排放，提升系统的环境友好性和经济性。其他说明：文章提供了详细的代码注释和调试技巧，帮助读者更好地理解和实现这一复杂的优化策略。

MATLAB机器人仿真：基于视觉控制的六轴机械臂运动路径规划与实现: 内容概要：本文详细介绍了如何利用MATLAB进行六轴机械臂的视觉控制系统仿真。首先，通过MATLAB的图像处理工具箱捕捉并处理实时视频流，使用HSV颜色空间进行颜色阈值处理，从而定位红色小球的位置。然后，借助Robotics Toolbox中的逆运动学模块，将摄像头获取的目标位置转换为机械臂的关节角度，确保机械臂能够精准地追踪目标。此外，还讨论了路径规划的方法，如使用五次多项式插值和平滑滤波器，使机械臂的动作更加流畅。文中强调了实际应用中可能遇到的问题及其解决方法，如奇异点处理、坐标系转换和机械臂的速度限制等。适合人群：具有一定编程基础和技术背景的研究人员、工程师以及对机器人视觉控制感兴趣的开发者。使用场景及目标：适用于希望在MATLAB环境中快速搭建和测试机械臂视觉控制系统的科研人员和工程师。主要目标是掌握从图像处理到机械臂控制的完整流程，理解各模块的工作原理，并能够在实际项目中应用。其他说明：本文不仅提供了详细的代码示例，还分享了许多实用的经验和技巧，帮助读者更好地理解和优化仿真系统。同时提醒读者注意仿真与现实之间的差异，如摄像头延迟、机械臂传动误差等问题。

【KUKA 机器人坐标的建立】：mo2_base_en.ppt: KUKA机器人相关文档

【KUKA 机器人资料】：KAKA机器人汽车座椅测试系统.pdf: KUKA机器人相关文档

三相变流器MPC控制：Matlab/Simulink仿真实现及优化技巧: 内容概要：本文详细介绍了三相变流器的模型预测控制(MPC)在Matlab/Simulink环境下的实现过程。首先，初始化程序设置了关键参数，如直流母线电压、开关频率和控制周期等，确保系统的稳定性和效率。接着，通过MPC_sfun.c实现了核心控制算法，采用状态空间模型进行滚动预测，提高了系统的动态响应能力。最后，利用out.m生成高质量的仿真结果图，展示了负载突变时的快速恢复特性，并提供了优化建议，如调整代价函数权重和引入软约束等。适合人群：电力电子工程师、控制系统研究人员以及对MPC感兴趣的科研工作者。使用场景及目标：适用于需要精确控制电压电流的场合，如电动汽车充电站、风力发电系统等。主要目标是提高系统的动态响应速度、降低总谐波失真(THD)，并在性能和计算负担之间取得平衡。其他说明：文中提到了一些实用技巧，如控制周期的选择、预测步长的优化、图形绘制的最佳实践等，有助于读者更好地理解和应用MPC控制策略。同时，强调了在实际应用中需要注意的问题，如避免过高开关频率导致器件损坏等。

网络炒作策划要点解析.ppt: 网络炒作策划要点解析.ppt

三菱Q03UDE PLC SFC编程模板在16轴伺服控制系统中的应用与优化: 内容概要：本文详细介绍了三菱Q03UDE PLC使用SFC（顺序功能图）编程方法在16轴伺服控制系统中的应用。文章首先概述了硬件配置，包括500个IO点、16轴伺服控制以及触摸屏的画面编程。接着深入探讨了SFC编程的具体实现方式，如将复杂的轴控制分解为独立的流程块，利用并行结构解决多轴同步问题，通过触摸屏实时监控和反馈SFC步状态，以及如何高效管理和复用输出点。此外，文章还讨论了SFC在状态管理和报警处理方面的优势，并提供了具体的代码示例来展示其实现细节。最后，作者分享了一些实用技巧和注意事项，强调了SFC编程相比传统梯形图的优势。适合人群：从事工业自动化控制系统的工程师和技术人员，尤其是对三菱PLC和SFC编程感兴趣的读者。使用场景及目标：适用于需要进行复杂多轴伺服控制项目的工程师，旨在提高调试效率、减少信号冲突、缩短新人培养周期，并提供一种更加直观和高效的编程方法。其他说明：文中提到的实际项目经验有助于读者更好地理解和应用SFC编程技术，同时也提醒了一些常见的错误和陷阱，帮助读者避免不必要的麻烦。

LabVIEW与三菱FX3U PLC串口通讯：基于Modbus协议的简易实现及应用: 内容概要：本文详细介绍了如何使用LabVIEW实现与三菱FX3U PLC的串口通讯，采用Modbus无协议通讯方式进行简单读写操作。主要内容包括PLC通讯参数配置、LabVIEW工程结构搭建、Modbus报文构造方法以及具体的读写数据模块实现。文中提供了详细的代码示例和注意事项，帮助读者快速理解和实践这一通讯过程。适合人群：对工业自动化有一定兴趣的技术人员，尤其是熟悉LabVIEW和三菱PLC的工程师。使用场景及目标：适用于需要将LabVIEW作为上位机与三菱FX3U PLC进行串口通讯的应用场合，如工业控制系统、实验教学等。主要目标是掌握Modbus协议的基础知识及其在LabVIEW中的具体实现。其他说明：文章还提供了一些常见的错误排查方法和实用技巧，如CRC校验的处理、地址偏移量的注意事项等。此外，附带了完整的源码供读者下载和参考。

图像检索-基于零样本开集的草图图像检索系统实现-附项目源码+流程教程-优质项目实战.zip: 图像检索_基于零样本开集的草图图像检索系统实现_附项目源码+流程教程_优质项目实战

基于C语言写的电话簿程序: 基于C语言写的电话簿程序

基于单片机的电压(20V)检测设计(51+1602+AD0808)#0063: 包括：源程序工程文件、Proteus仿真工程文件、配套技术手册等 1、采用51单片机作为主控芯片； 2、采用1602液晶显示检测电压值，范围0~20V； 3、采用ADC0808进行模数转换；

【剧本杀AI提示词指令】基于AI的剧本杀定制化创作系统（deepseek,豆包,kimi,chatGPT,扣子空间,manus,AI训练师）: 内容概要：本文介绍了一个专业的剧本杀创作作家AI。它能根据客户需求创作各种风格和难度的剧本杀剧本，并提供创作建议和修改意见。其目标是创造引人入胜、逻辑严密的剧本体验。它的工作流程包括接收理解剧本要求、创作剧本框架情节、设计角色背景线索任务剧情走向、提供修改完善建议、确保剧本可玩性和故事连贯性。它需保证剧本原创、符合道德法律标准并在规定时间内完成创作。它具备剧本创作技巧、角色构建理解、线索悬念编织、文学知识和创意思维、不同文化背景下剧本风格掌握以及剧本杀游戏机制和玩家心理熟悉等技能。; 适合人群：有剧本杀创作需求的人群，如剧本杀爱好者、创作者等。; 使用场景及目标：①为用户提供符合要求的剧本杀剧本创作服务；②帮助用户完善剧本杀剧本，提高剧本质量。; 阅读建议：此资源详细介绍了剧本杀创作作家AI的功能和服务流程，用户可以依据自身需求与该AI合作，明确表达自己的创作需求并配合其工作流程。

Matlab图像处理技术实现静态图片美颜与特效处理: 内容概要：本文详细介绍了如何利用Matlab进行静态图片的美颜和特效处理。首先通过Viola-Jones算法进行人脸定位，然后采用双边滤波对皮肤进行磨皮处理，在HSV色彩空间中调整亮度以达到美白效果，最后运用小波变换将星空图等特效融合到图片中。整个过程中涉及多个图像处理技术和算法，如Haar特征、双边滤波、HSV转换、小波变换等。适合人群：对图像处理感兴趣的初学者以及有一定Matlab基础的研发人员。使用场景及目标：适用于希望深入了解图像处理原理并掌握具体实现方法的学习者；目标是能够独立完成简单的图像美化任务，如人像磨皮、美白、特效添加等。其他说明：文中提供了完整的代码示例，帮助读者更好地理解和实践相关技术。同时强调了参数选择的重要性，并给出了合理的建议范围。

KUKA_机器人初级培训教材.ppt: KUKA机器人相关文档

基于三菱FX3U PLC和威纶通触摸屏的分切机上下收放卷张力控制系统设计: 内容概要：本文详细介绍了在无电子凸轮功能情况下，利用三菱FX3U系列PLC和威纶通触摸屏实现分切机上下收放卷张力控制的方法。主要内容涵盖硬件连接、程序框架设计、张力检测与读取、PID控制逻辑以及触摸屏交互界面的设计。文中通过具体代码示例展示了如何初始化寄存器、读取张力传感器数据、计算张力偏差并实施PID控制，最终实现稳定的张力控制。此外，还讨论了卷径计算、速度同步控制等关键技术点，并提供了现场调试经验和优化建议。适合人群：从事自动化生产设备维护和技术支持的专业人士，尤其是熟悉PLC编程和触摸屏应用的技术人员。使用场景及目标：适用于需要对分切机进行升级改造的企业，旨在提高分切机的张力控制精度，确保材料切割质量，降低生产成本。通过本方案可以实现±3%的张力控制精度，满足基本生产需求。其他说明：本文不仅提供详细的程序代码和硬件配置指南，还分享了许多实用的调试技巧和经验，帮助技术人员更好地理解和应用相关技术。

400kW光伏并网发电厂VSC控制技术详解与应用: 内容概要：本文详细介绍了400kW光伏并网发电厂中电压源换流器（VSC）的控制技术。首先阐述了系统架构，即光伏阵列通过DC/DC升压、VSC逆变最终连接到电网。文中深入探讨了VSC控制中的关键环节，如电流内环控制、最大功率点跟踪（MPPT）、空间矢量调制（SVPWM）以及锁相环（PLL）的设计与实现。通过Python和MATLAB/Simulink代码片段展示了具体的控制逻辑，并分享了一些实际工程中的经验和教训，如积分项限幅、过调制处理、谐波抑制等。此外，还讨论了仿真与实际调试之间的差异，强调了保护电路的重要性。适合人群：从事光伏并网发电系统设计、开发和维护的技术人员，尤其是对VSC控制感兴趣的工程师。使用场景及目标：适用于希望深入了解光伏并网发电厂中VSC控制技术的研究人员和技术人员。目标是掌握VSC控制的核心原理及其具体实现方法，以便应用于实际工程项目中。其他说明：文章提供了详细的代码示例和实践经验，有助于读者更好地理解和应用相关技术。同时提醒读者，在实际工程应用中需要考虑更多的保护措施和优化策略。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论