关于Hadoop IPC机制的描述,网上已有丰富的资料可供参考,比如:http://blog.csdn.net/zhanglizhe_cool/article/details/5712456,但大都围绕Hadoop中Server、Client的通信方式进行说明。这篇文章,以Hadoop IPC中对Java Proxy机制的使用作为主题,描述其基本工作原理和实现方法。
Java Proxy
Java Proxy(代理)是Java反射机制的一种。JVM为Java的用户提供了这种方法,使得Java代码的编写者可以为已有的类(被代理类)定义一个代理类的封装,代理对象可以在最终调用被代理类对象方法的前后添加更多自定义的操作。而代理类对象的使用者可以像使用被代理类对象一样,调用被代理类的方法。
这种机制的好处,是代理对象为其使用者屏蔽了在最终调用到被代理对象方法前后所进行的诸如建立网络通信等细节,代理的使用者在调用代理类对象的方法时,表面上看就跟调用被代理类对象方法具有相同的形式。
Hadoop IPC与Java Proxy
Hadoop的各进程之间,采用其自行实现的IPC机制进行通信。以下以NameNode和DataNode之间的通信为例。
在Hadoop中,DataNode通过定时的向NameNode发送心跳,来进行信息交互。Hadoop的NameNode类中,有一个public方法sendHeartbeat。DataNode对象向NameNode发送心跳,就是通过调用远程执行的NameNode对象的这个方法,并获取该方法的返回值来实现的。IPC通信中,主要涉及通信的类是org.apache.hadoop.ipc.Server以及org.apache.hadoop.ipc.Client。就直观的感觉讲,DataNode在这个发心跳的操作中,应该是这样的流程,DataNode通过Client建立到NamenNode的链接,然后向这个链接发送心跳请求,NameNode对象接收到请求之后,触发自己的sendHeartHeat方法,方法完成之后,向Client回送返回值。把视点集中到DataNode,这个交互过程,DataNode中需要进行建立网络连接、发送数据、接收数据三个操作,它应该要调用Client的相应方法来完成所有这些。但,实际情况比这个要简洁得多,因为Hadoop引入了org.apache.hadoop.ipc.RPC这个类,而这个类使用Java Proxy方式为DataNode屏蔽了繁琐的网络建立过程:
DataNode中的包含这样一个成员属性:public DatanodeProtocol namenode = null。DataNode进程在启动时,这个属性会被初始化:
this.namenode = (DatanodeProtocol) RPC.waitForProxy(DatanodeProtocol.class, DatanodeProtocol.versionID, nameNodeAddr, conf);
在这之后,当DataNode要向NameNode发送心跳时,调用namenode.sendHeartbeat即可。在DataNode看来,它直接调用自己成员变量namenode的sendHeartbeat方法,就直接实现了对远程NameNode对象这个sendHeartbeat方法的调用,形式变得非常简洁。这里,RPC使用Java Proxy机制,实现了这个看似神奇的远程调用。
研究RPC.waitForProxy可以知道,它最终触发了Java Proxy调用:VersionedProtocol proxy = (VersionedProtocol) Proxy.newProxyInstance( protocol.getClassLoader(), new Class[] { protocol }, new Invoker(protocol, addr, ticket, conf, factory, rpcTimeout))。Proxy机制中,当通过newProxyInstance调用获取一个代理类对象之后,对这个代理类对象的方法调用,都会触发到newProxyInstance这个方法所传入的第三个参数所定义的对象(java.lang.reflect.InvocationHandler接口的扩展类对象)的invoke方法。
看看DataNode在建立代理对象时所传入的这个org.apache.hadoop.ipc.RCP.Invoker类实现:
private static class Invoker implements InvocationHandler {
private Client.ConnectionId remoteId;
private Client client;
private boolean isClosed = false;
public Invoker(Class<? extends VersionedProtocol> protocol, InetSocketAddress address, UserGroupInformation ticket, Configuration conf, SocketFactory factory, int rpcTimeout) throws IOException {
this.remoteId = Client.ConnectionId.getConnectionId(address, protocol, ticket, rpcTimeout, conf);
this.client = CLIENTS.getClient(conf, factory);
}
public Object invoke(Object proxy, Method method, Object[] args) throws Throwable {
final boolean logDebug = LOG.isDebugEnabled();
long startTime = 0;
if (logDebug) {
startTime = System.currentTimeMillis();
}
ObjectWritable value = (ObjectWritable) client.call(new Invocation(method, args), remoteId);
if (logDebug) {
long callTime = System.currentTimeMillis() – startTime;
LOG.debug(“Call: ” + method.getName() + ” ” + callTime);
}
return value.get();
}
…
}
Invoker对象在构造的时候,就会使用Client的相应方法,建立到Server的连接。Invoker为 InvocationHandler的实现类,把它注册为Proxy对象的invoker之后,只要客户端直接调用Proxy对象的方法,就会触发Invoker的invoke方法,Invoker类就是在这个Invoke方法中,发起了到Server的连结,将Method名称及参数发送到Server。随后Server会反向解析Method及这些参数并最终调用到Server侧对象的相应方法。
相关推荐
本项目深入分析了基于Java和Shell语言的Hadoop IPC模块,包含38个文件,其中21个Java源文件,6个JAR包文件,以及Shell脚本、属性文件、XML配置等辅助文件,旨在提取并设计该模块的核心源码,以增强对Hadoop分布式...
### Hadoop与Java基础知识学习手册 #### 一、Hadoop简介及Java基础知识 **标题**:“学习hadoop--java零基础学习hadoop手册” **描述**:“学习hadoop--java零基础学习hadoop手册” 本手册旨在为完全没有Java基础...
这个“Hadoop入门程序java源码”是为初学者准备的,目的是帮助他们快速掌握如何在Hadoop环境中编写和运行Java程序。Hadoop的主要组件包括HDFS(Hadoop分布式文件系统)和MapReduce,这两个部分将在下面详细介绍。 ...
java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,...
**Hadoop与Java的结合** Hadoop的编程接口主要是用Java实现的,因此,使用Hadoop进行开发通常需要Java基础。`Hadoop教学使用java_jdk.txt`很可能是包含了一些教学指导或者示例代码,帮助学生了解如何使用Java编写...
Hadoop的RPC实现主要集中在`org.apache.hadoop.ipc`包下。`ProtobufRpcEngine`和`ReflectionUtils`是关键类,前者负责protobuf协议的序列化和反序列化,后者用于创建服务器实例。在`RPC.Server`中,可以看到对请求的...
【标题】:在Hadoop中实现Java网络爬虫的详细步骤 【描述】:本文将详细介绍如何在Hadoop环境中利用Java实现一个网络爬虫。我们将从配置环境开始,包括Cygwin、Hadoop的设置,然后是Eclipse开发环境的搭建,以及...
总结来说,“hadoop实战案列java”是一个实践项目,它展示了如何使用Java API与Hadoop进行交互,执行数据操作,以及如何借助Hive进行数据管理和查询。通过学习和实践这样的案例,开发者可以提升在大数据处理领域的...
【分布式安装Java与Hadoop】 在进行Hadoop的分布式安装之前,首要任务是确保所有参与节点都安装了相同版本的Java。这是因为Hadoop是用Java编写的,它依赖于Java运行环境来执行其核心服务。在本文中,我们将讨论如何...
在Hadoop生态系统中,Java是主要的编程语言,用于与HDFS(Hadoop Distributed File System)进行交互。本文将深入探讨使用Java管理HDFS文件和文件夹的关键知识点,特别是基于Hadoop 2.4版本。 首先,理解HDFS的基础...
Hadoop与Snappy的结合,旨在优化Hadoop集群的数据传输效率。 在Hadoop中集成Snappy,可以显著提升数据压缩和解压缩的速度,从而加快MapReduce任务的执行。然而,将Snappy整合到Hadoop并不总是那么简单,因为默认...
本文将对基于Hadoop的云计算平台安全机制进行详细的研究与分析。 首先,传统网络安全问题及管理策略是云计算平台安全性研究的基础。传统的网络安全问题主要包括窃听、修改、重放、伪装、欺骗、渗透、抵赖、拒绝服务...
本文将深入探讨如何利用Java API来与Hadoop集群进行交互,包括读取、写入数据以及执行MapReduce任务。 一、Hadoop简介 Hadoop的核心组件主要包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个...
Java API使得这个过程变得方便,因为它提供了与Hadoop和HBase交互所需的类和方法。 具体使用Java API开发时,首先需要配置Hadoop和HBase的相关环境,包括设置HADOOP_CONF_DIR和HBASE_HOME环境变量。然后,开发者...
10. **Hadoop客户端**:在Hadoop 2.x中,客户端库包含了一组API,用于与Hadoop集群交互,例如提交作业、监控作业状态等。 在实际开发中,开发者需要将这些API导入到项目中,通常是通过Maven或Gradle这样的构建工具...
《HDFS设计与操作——基于Hadoop的Java实践》 Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它为大规模数据处理提供了可扩展、高容错性的存储解决方案。本资料集围绕“hdfs_design.rar”这个...
资源包含文件:lunwen文档+任务书+开题报告+文献综述+答辩PPT+项目源码及...使用技术:Java 、Jsp、Mysql、Hadoop 详细介绍参考:https://biyezuopin.blog.csdn.net/article/details/122768619?spm=1001.2014.3001.5502
下面将详细讨论Hadoop与Java编程的相关知识点。 1. **Hadoop的基本概念** - **分布式文件系统(HDFS)**:Hadoop的核心之一,它将大文件分割成多个块,并将这些块存储在多台节点上,提供高可用性和容错性。 - **...
### 将Hadoop与Java的编译器IntelliJ IDEA相连及WordCount程序编写 #### 环境准备 为了实现Hadoop与Java编译器IntelliJ IDEA的连接,并在此基础上编写WordCount程序,首先需要确保具备以下环境: 1. **安装JDK ...