`
han_zw
  • 浏览: 174411 次
  • 性别: Icon_minigender_1
  • 来自: 天津
社区版块
存档分类
最新评论
文章列表
在使用smiley-http-proxy-servlet实现反向代理时,发现在进行转发时原始request中的cookie信息丢失了。翻看了其源代码后发现在ProxyServlet进行http转发时是有copy原始request中的header(包括cookie)的操作的,如下: /** Copy request headers from the servlet client to the proxy request. */ protected void copyRequestHeaders(HttpServletRequest servletRequest, HttpReques ...
介绍 本文档给出NodeManager(NM) restart的概览,该feature允许NodeManager在不丢失active container的情况下重启。从更高层面看,NM在处理container-management 请求时将必要的状态信息保存至本地state-store。当NM重启时,它首先为各个子系统加载state信息,之后让这些子系统利用加载的state重新执行恢复。 启用NM Restart Step 1. 启用NM Restart功能,设置conf/yarn-site.xml中的以下属性为true。 Property Value yarn. ...
概述 YARN命令通过bin/yarn 脚本调用.不传入任何参数运行该脚本会打印所有命令的描述。 Usage: yarn [--config confdir] COMMAND [--loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS] YARN有一个option解析框架用来解析通用options和运行class。 COMM ...
目标 本文在较高层次介绍实现YARN的application的方式。  概念和流程 通俗讲就是一个application提交客户端提交一个application到YARN Resource Manager(RM)。通过建立YarnClient对象可以完成这个工作。YarnClient启动之后,client之后可以建立application context,准备包含ApplicationMaster(AM)的第一个container,之后提交该application。你需要提供你的application运行所需的详细信息,包括本地文件、jar文件、实际运行的命令(包括必要的命令行参数)、 ...
概述 介绍 在YARN中通过Timeline Server用一种通用的形式解决对application的当前和历史信息的存储和检索。它有两个职责: 持久化Application特定信息 Application或者framework的完整特定信息的收集和检索。例如,Hadoop Mapreduce framework会包含诸如map task数目,reduce task数目,counter数目等等。Application的开发者在Application Master 或者application的container中,可以通过TimelineClient发布这些信息到Timeline s ...
Web Application Proxy是YARN的一部分。默认情况下它会作为Resource Manager(RM)的一部分运行,但是可以配置为独立运行的模式。Proxy的意义是减少通过YARN的网络攻击的可能性。 在YARN中,Application Master(AM)有责任提供Web UI并将该链接发送至RM。这带来了一些潜在的问题——RM作为一个可信任的用户运行,人们信任正在访问的RM的web地址,以及它提供的链接,但是当AM运行在一个非受信的用户,而且给到RM的链接可能指向恶意的东西。Web Application Proxy通过警告不是特定application属主的用户, ...
概述 Node label是将相似特点的节点进行分组的一种途径,application可以指定在哪里运行。现在我们只支持node partition: 一个node只能有一个node partition, 所以一个集群通过node partition被分为多个互斥的子集群。默认的,node都属于DE ...
介绍 本指南提供YARN的ResourceManager 的HA概览,以及如何配置和使用这些特性。ResourceManager(RM)负责跟踪集群中的资源,调度application(如MapReduce job)。hadoop 2.4之前,ResourceManager在YARN集群中存在单点故障的隐患。HA特性通过主备ResourceManager的方案解决单点故障问题。 架构   RM灾备 ResourceManager HA通过主备架构实现——在任意时刻,一个RM处于Active模式,另外一个或者多个处于Standby模式,等待某种情况发生则转为Active模式。切换 ...
综述 ResourceManager是管理资源和调度YARN中运行的application的中心机构。因此,它在Apache YARN 集群中存在潜在的单点故障。本文档给出有关ResourceManager Restart特性的概述,该特性强化ResourceManager可以跨越重启操作继续运转,另外让R ...
目标 本文档描述FairScheduler,一个允许YARN应用程序公平共享集群资源的调度插件。   概述 公平调度是一个分配资源给所有application的方法,平均来看,是随着时间的进展平等分享资源的。下一代Hadoop可调度多资源类 ...
  目标 本文档将描述CapacityScheduler,它作为一个可插拔的hadoop调度器,允许多租户安全的共享一个大的集群,在资源分配有限的条件下适时的为应用程序分配资源。   综述 CapacityScheduler被设计作为一个共享的、多租户 ...
ResourceManager和NodeManager一起构成数据计算框架。ResourceManager是系统中所有应用程序资源决策的最高权威。NodeManager是部署在每台机器的框架的agent,它负责管理各个容器,监控机器的资源使用情况(CPU、内存、存储,网络),以及将这些信息上报给ResourceManager。每个应用程序的ApplicationMaster实际上是一个框架的中的特定library,它的职责就是与ResourceManager协商资源以及与NodeManager协作队任务进行执行和监管。 ResourceManager有两个主要组件:Scheduler 和 A ...
下一代MapReduce——Yarn(MRv2)   在hadoop-0.23中引入的新框架把JobTracker的两个主要功能:资源管理和job生命周期管理分别拆分成了独立的组件。 新的ResourceManager管理Application所需计算资源的全局分配,每个独立应用的ApplicationMaster管理应用的调度和协调。 一个应用程序可以是类似于经典的MapReduce的独立job,也可以是类似job组成的DAG。 ResourceManager和每个机器上的NodeManager都是后台守护进程。NodeManager管理所在机器的用户进程,与ResourceMa ...
在个人虚拟机上搭建hadoop的运行环境的笔记。 背景信息:部署版本采用了hadoop 2.6.3;操作系统为centos ,内核2.6.32-504.3.3.el6.x86_64;系统已经正确安装了jdk,本次选定版本为jdk7u79.   一、解压部署 1. 下载hadoop 2.6.3 安装包 hadoop-2.6.3.tar.gz,下载页面:http://hadoop.apache.org/releases.html 解压到目录:/home/hanzhiwei/app/hadoop下 2. 设定HADOOP_HOME环境变量   在~/.bash_profile文件中 ...

hello 数据仓库

作为笔记记录下,希望对别的朋友有帮助。   Hello DW! 1. WHAT     1.1 数据仓库定义         数据仓库不是新事物,它的定义由数据仓库之父——Bill Inmon在1991年发表的著作《Building the Data Warehouse》中提出。本书影响非 ...
Global site tag (gtag.js) - Google Analytics