一.本文初衷
我曾经写过一篇文章容器学习一:HashMap源码分析,后来有网友对我说,全文不介绍HashMap怎么使用,只介绍了源码,有点孤立。到昨天又有网友对我说,看了你的分析RPC的三篇文章,并没有理解RPC到底是个什么玩意,给我留下的影响只有Java反射。这个就是我写本文的原因:源码是进去,本文再跳出来做一个全局的描述。
二.RPC概念
- RPC(Remote Procedure Call Protocol):远程过程调用协议。其作用是通过网络向远程请求服务。
- RPC采用客户机/服务器模式。客户机把请求发送给服务器,服务器获取请求的参数,在本地执行这个请求,最后将结果返回给客户机。站在客户机的角度,这条请求就是在远程(服务器)被执行了。
- Hdfs就是自己实现了一套RPC,使用了Java反射和NIO。
- Java RMI(Remote Method Call):远程方法调用,实际上和RPC是一个意思。
三.Hdfs RPC角色
- RPC Client:由org.apache.hadoop.ipc.Client实现。用于向server发生请求,并获取请求返回结果。
- RPC Server:由org.apache.hadoop.ipc.Server和org.apache.hadoop.ipc.RPC.Server共同实现。ipc.Server用于获取请求,提供执行请求的抽象方法,返回请求结果;RPC.Server用来真正执行请求。
- RPC服务类:由org.apache.hadoop.ipc.RPC实现。主要实现两个服务:getProxy获得远程代理对象;getServer获得RPC Server。
四.Hdfs RPC实现
- Server s = RPC.getServer(...);s.start();RPC服务器端启动,各线程准备就绪。
- VersionedProtocol v = RPC.getProxy(...);实际上得到一个Java代理类,Invoker实现了InvocationHandler,重写了invoke()方法。
- v.method(...)时,触发invoke()方法,invoke()内部执行client.call()。
- client.call()内部取得RPC client到RPC server的Connection,随后用connection发生请求sendParam。等待结果返回。
- RPC Server Listener线程接受到请求。
- Reader线程读取请求,把请求封装成Server Call对象。放入callQueue。
- Handler线程从callQueue取call,在本机上执行method.invoke()方法,把执行结果赋值给call对象的response属性。如果目前只有一个call对象,立即返回;否则放入responseQueue。
- Responder线程从responseQueue取call,把call的response发送给RPC Client。
- RPC Client收到结果,这个就是远程命令的结果。如果你是一个远程创建文件夹的请求,那这个结果返回成功或失败或文件夹信息等;如果你是获得远程机器上DatanodeReport的请求,那这个结果返回的就是远程机器上的DatanodeInfo[]。
五.自己模仿写了一个RPC
写道
http://cloud-file-system.googlecode.com/svn/trunk/SourceCode/CFS_Test/src/com/zzy/rpc/
http://cloud-file-system.googlecode.com/svn/trunk/SourceCode/CFS_Test/src/com/zzy/rpctest/
http://cloud-file-system.googlecode.com/svn/trunk/SourceCode/CFS_Test/src/com/zzy/rpctest/
- 只实现功能。没考虑代码质量。
- Client和Server端都用NIO实现。
- 如果有谁想学习的,我会把它单独抽出来。
相关推荐
HDFS(Hadoop Distributed File System)是一种分布式文件系统,主要用于存储和管理大规模数据。HDFS 的设计初衷是为了满足高性能、高可靠性和高可扩展性的需求。 HDFS 体系结构 HDFS 的体系结构主要由两个组件...
总结来说,"hadoop-common-2.7.1-bin-master.zip"不仅包含了使Hadoop能在Windows环境下运行的必要组件,更是一个全面的工具集,涵盖了Hadoop运行所需的各种基础服务和功能。理解和掌握这些知识点,对于在实际项目中...
内容概要: 架构、流程、机制、原理、环境、数据...HadoopHDFS-JavaRPC操作代码,含服务端和客户端代码; hadoop生态现状、介绍、部署; hadoop2.4.1伪分布式搭建; 分布式文件系统; 复安装过程详细步骤; hdfs笔记;
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的...
分布式存储系统-HDFS 分布式文件系统(Distributed File System,DFS)是为了解决大数据存储问题而设计的,它能够将海量数据...HDFS是大数据处理的基础,学习和掌握HDFS将有助于理解和实现更高级的大数据解决方案。
### Hadoop学习总结之二:深入理解HDFS读写过程 #### 一、HDFS文件读取流程详解 Hadoop的分布式文件系统(HDFS)是大数据存储与处理的重要基石,其读写机制的设计旨在优化大规模数据集的访问效率与容错性。本文将...
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》是一本深入探讨Hadoop核心组件的书籍,其源代码提供了对Hadoop内部工作原理的直观理解。这本书主要关注两个关键部分:Hadoop Common和HDFS...
Hadoop 培训课程(2)HDFS 分布式文件系统与HDFS HDFS体系结构与基本概念*** HDFS的shell操作*** java接口及常用api*** ---------------------------加深拓展---------------------- RPC调用** HDFS的分布式存储架构的...
本文将详细解析HDFS的读取和写入过程,基于标题"《Hadoop学习总结之二:HDFS读写过程解析》"和描述中提到的代码分析。 1. **文件的打开** 当客户端想要打开一个HDFS文件时,它会调用`DistributedFileSystem.open`...
HDFS (Hadoop Distributed File System) 是一种分布式文件系统,主要用于存储大量数据。为了保证数据的可靠性和高可用性,HDFS 采用了多副本机制,通常每个文件块会被复制三份并分别存储在不同的 DataNode 上。 **...
<name>dfs.namenode.rpc-address.nnc1.nn1 <value>master1:9000 ``` 这里配置了`nn1`(即`master1`)的RPC地址为`9000`端口。 ##### 4. `dfs.namenode.http-address` 此属性用于配置NameNode的HTTP服务地址,以...
- **HDFS(Hadoop Distributed File System)**:提供了一个高可用性和高性能的分布式文件存储系统,适用于大规模数据存储。 - **NameNode**:作为主控服务器,负责管理文件系统的命名空间和客户端请求的元数据。 ...
总结起来,"hadoop-common-2.2.0-bin-master" 压缩包是 Hadoop 的核心组件,包含了本地运行 Hadoop 所需的库和工具,同时与 Spark 框架兼容。开发者可以利用这些资源进行大数据处理应用的开发、测试和调试。
最后,netty-3.6.2.Final.jar是一个高性能的异步事件驱动的网络应用程序框架,它在Hadoop中用于网络通信,特别是在处理RPC(Remote Procedure Call)请求时,提供高效的网络I/O能力。 总的来说,Hadoop Eclipse ...
### Hadoop HDFS 增删改操作及配置详解 Hadoop 分布式文件系统 (HDFS) 是 Hadoop 的核心组件之一,主要用于存储大量数据并支持这些数据的大规模处理。本文将根据提供的文档信息,深入探讨 HDFS 中涉及的增、删、改...