hdfs 文件的追加

博客分类：

hdfs

1、修改hdfs-site.xml <property> <name>dfs.support.append</name> <value>true</value> </property> 2、目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是，我们可以通过Hadoop提供的API实现文件内容追加，如何实现？这里我写了一个简单的测试程序 ...

2015-07-19 11:07
浏览 6489
评论(0)
分类:编程语言

DistributedCache是Hadoop提供的文件缓存工具，它能够自动将指定的文件分发到各个节点上，缓存到本地，供用户程序读取使用。。它具有以下几个特点：缓存的文件是只读的，修改这些文件内容没有意义；用户可以调整文件可见范围（比如只能用户自己使用，所有用户都可以使用等），进而防止重复拷贝现象；按需拷贝，文件是通过HDFS作为共享数据中心分发到各节点的，且只发给任务被调度到的节点。 DistributeCache的命令方式：（1）-files：将指定的本地/hdfs文件分发到各个Task的工作目录下，不对文件进行任何处理；（2）-archives：将指定文件分发到各个Task ...

2015-03-05 11:07
浏览 1514
评论(0)
分类:编程语言

hdfs 的集中式缓存

博客分类：

hdfs

集中缓存有两层概念：第一层是缓存，即为存储在HDFS中文件提供缓存的机制，从而可以加速DFSClient对文件的读操作；第二层概念是集中式的管理，传统的HDFS缓存依赖了OS本身的缓存机制，但是这种缓存机制不能被管理员或中央节点进行管理，不能自由的控制哪些文件缓存，哪些文件不进行缓存；集中式的管理可以提高了对缓存内存的可控性； HDFS中集中缓存架构如下所示： [url]http://yanbohappy-wordpress.stor.sinaapp.com/uploads/2014/04/architecure.png [/url] 1、User通过api入口与NN进行交互，告诉NN缓存 ...

2015-03-05 10:06
浏览 3024
评论(0)
分类:编程语言

基于Flume的美团日志收集系统(一)架构和设计

博客分类：

flume

转自：http://www.aboutyun.com/thread-8317-1-1.html 问题导读： 1.Flume-NG与Scribe对比，Flume-NG的优势在什么地方？ 2.架构设计考虑需要考虑什么问题？ 3.Agent死机该如何解决？ 4.Collector死机是否会有影响？ 5.Flume-NG可靠性(reliability)方面做了哪 ...

2015-03-04 17:32
浏览 653
评论(0)
分类:编程语言

基于Flume的美团日志收集系统(二)改进和优化

博客分类：

flume

原文：http://blog.csdn.net/lskyne/article/details/37564449 问题导读： 1.Flume的存在些什么问题？ 2.基于开源的Flume美团增加了哪些功能？ 3.Flume系统如何调优？在《基于Flume的美团日志收集系统(一)架构和设计》中，我们详述了基于Flume的美团日志收集系统的架构设计，以及为什么做这样的设计。在本节中，我们将会讲述在实际部署和使用过程中遇到的问题，对Flume的功能改进和对系统做的优化。 1 Flume的问题总结在Flume的使用过程中，遇到的主要问题如下： a. Channel“水土不服”：使用固定大小的Mem ...

2015-03-04 17:18
浏览 918
评论(0)
分类:编程语言

flume 自定义source

博客分类：

flume

按照以往的惯例，还是需求驱动学习，有位网友在我的flume学习五中留言提了一个问题如下：我想实现一个功能，就在读一个文件的时候，将文件的名字和文件生成的日期作为event的header传到hdfs上时，不同的event存到不同的目录下，如一个文件是a.log.2014-07-25在hdfs上是存到/a/2014-07-25目录下，a.log.2014-07-26存到/a/2014-07-26目录下，就是每个文件对应自己的目录，这个要怎么实现。带着这个问题，我又重新翻看了官方的文档，发现一个spooling directory source跟这个需求稍微有点吻合：它监视指定的文件夹下面有 ...

2015-03-04 11:16
浏览 3622
评论(2)
分类:编程语言

使用hive来分析flume收集的日志数据

博客分类：

flume

前面已经讲过如何将log4j的日志输出到指定的hdfs目录，我们前面的指定目录为/flume/events。如果想用hive来分析采集来的日志，我们可以将/flume/events下面的日志数据都load到hive中的表当中去。如果了解hive的load data原理的话，还� ...

2015-03-03 22:50
浏览 1168
评论(0)
分类:编程语言

flume iterceptor

博客分类：

flume

对于flume拦截器,我的理解是：在app(应用程序日志)和 source 之间的，对app日志进行拦截处理的。也即在日志进入到source之前，对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有： Timestamp Interceptor Host Interceptor Static Interceptor Regex Filtering Interceptor Regex Extractor Interceptor 像很多java的开源项目如springmvc中的拦截器一样，flume的拦截器也是chain形式的，可以对一个source指定多个拦截器，按先后顺序依次 ...

2015-03-03 22:18
浏览 701
评论(0)
分类:编程语言

HBase Rowkey的散列与预分区设计

博客分类：

hbase

HBase中，表会被划分为1...n个Region，被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个start-end key范围内，那么就会定位到目标region并且读/写到相关的 ...

2015-03-03 14:51
浏览 993
评论(0)
分类:编程语言

hbase bluk loading

博客分类：

hbase

使用HBASE的BULK LOAD 一、环境的配置 1.首先配置$HADOOP_HOME下的conf/hadoop-env.sh文件，修改其中的HADOOP_CLASSPATH为如下 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/hadoop/hbase-0.90.3.jar:/hadoop/hbase/hbase-0.90.3- tests.jar:/hadoop/hbase/conf:/hadoop/hbase/lib/guava-r06 ...

2015-03-03 11:29
浏览 814
评论(0)
分类:编程语言

hadoop 面试题

博客分类：

hadoop

1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式 2. 单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。 3. 伪分布模式中的注意点？伪分布式（Pseudo）适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。 4. VM是否可以称为Pseudo？不是，两个事物，同时Pseudo只针对Hadoop。 5. 全分布模式又有什么注意点？ ...

2015-03-02 15:10
浏览 843
评论(0)
分类:编程语言

mapreduce '找共同朋友'，面试题

博客分类：

mapreduce

mapred找共同朋友，数据格式如下：引用 A B C D E F B A C D E C A B E D A B E E A B C D F A 第一字母表示本人，其他是他的朋友，找出有共同朋友的人，和共同朋友是谁答案如下： import java.io.IOException; import java.util.Set; import java.util.StringTokenizer; import java.util.TreeSet; import org.apache.hadoop.conf.Configuration; import org.ap ...

2015-02-12 15:24
浏览 2495
评论(0)
分类:编程语言

Hadoop中MapReduce多种join实现实例分析

博客分类：

mapreduce

原文：http://database.51cto.com/art/201410/454277.htm 一、概述对于RDBMS中的join操作大伙一定非常熟悉，写sql的时候要十分注意细节，稍有差池就会耗时巨久造成很大的性能瓶颈，而在Hadoop中使用MapReduce框架进行join的操作时同样耗时，但是由于hadoop的分布式设计理念的特殊性，因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析，并且根据我在实际开发过程中遇到的实际例子来进行进一步的说明。二、实现原理 1、在Reudce端进行连接。在 ...

2015-02-11 11:13
浏览 726
评论(0)
分类:编程语言

ZooKeeper 分布式锁实现

博客分类：

zookeeper

zookeeper 分布式锁

场景描述在分布式应用, 往往存在多个进程提供同一服务. 这些进程有可能在相同的机器上, 也有可能分布在不同的机器上. 如果这些进程共享了一些资源, 可能就需要分布式锁来锁定对这些资源的访问. 本文将介绍如何利用zookeepe ...

2015-01-14 10:23
浏览 999
评论(0)
分类:编程语言

Zookeeper 分布式配置管理

博客分类：

zookeeper

配置管理 zookeeper

原创配置中心代码： import java.io.IOException; import java.util.concurrent.CountDownLatch; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.Watcher; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Watcher.Event.KeeperState; import org.apache.zookeeper.data.St ...

2015-01-13 17:27
浏览 1147
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hdfs 文件的追加

hdfs 的分布式缓存

hdfs 的集中式缓存

基于Flume的美团日志收集系统(一)架构和设计

基于Flume的美团日志收集系统(二)改进和优化

flume 自定义source

使用hive来分析flume收集的日志数据

flume iterceptor

HBase Rowkey的散列与预分区设计

hbase bluk loading

hadoop 面试题

mapreduce '找共同朋友'，面试题

Hadoop中MapReduce多种join实现实例分析

ZooKeeper 分布式锁实现

Zookeeper 分布式配置管理

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>