- 浏览: 218952 次
- 性别:
- 来自: 北京
最新评论
-
javalogo:
[b][i][u]引用[list]
[*][*][flash= ...
什么是Flume -
leibnitz:
what are they meanings
Hadoop Ganglia Metric Item -
di1984HIT:
没用过啊。
akka 介绍-Actor 基础 -
di1984HIT:
写的不错。
Hadoop管理-集群维护 -
developerinit:
很好,基本上介绍了
什么是Flume
文章列表
java.io.IOException: Could not obtain block: blk_3994194388687994288_1253 file=/tmp/hadoop-jack/mapred/staging/jack/.staging/job_201207131721_0004/job.split
at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.chooseDataNode(DFSClient.java:2215)
at org.apache.hadoop.hdfs.DFSClient$DFSInputStream. ...
Hadoop 配置不当引起集群不稳
- 博客分类:
- hadoop
配置不当内容
资源配置不当:内存、文件句柄数量、磁盘空间
需要调整的地方
Hadoop、OS 配置文件
Oversubscription of MR heap caused swap -> Swap caused RegionSrver to time out and die -> Dead RegionServer caused MR tasks to fial until MR job died.
内存配置不当
TT OOME
JT OOME
Native Threads
Thread 配置不当
Fetch ...
Hadoop管理-集群维护
- 博客分类:
- hadoop
1.检查HDFS状态
fsck命令
1)fsck检测丢失及无效的数据块
-fsck只是起到检测作用,不会进行修复
2)fsck可以查看的内容
-每个文件的块数量、块的位置、机架信息
3)例子
$ hadoop fsck /
$ hadoop fsck / -files
$ hadoop fsck / -files -blocks
$ hadoop fsck / -files -blocks -locations
$ hadoop fsck / -files -blocks -locatio ...
dfs.FSDirectory.files_deleted
dfs.FSNamesystem.BlockCapacity
dfs.FSNameSystem.BlocksTotal
dfs.FSNamesystem.CapacityRemainingGB
dfs.FSNamesystem.CapacityTotalGB
dfs.FSnamesystem.CapacityUsedGB
dfs.FSnamesystem.CorruptBlocks
dfs.FSnamesystem.ExcessBlocks
dfs.FSnamesys ...
转发自:http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html
hadoop集群默认配置和常用配置
获取默认配置
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,h ...
序列化
序列化是把结构化的对像转为字节流,以便网络传输或存储到磁盘设备上。反序列化是一个相反的过程,即把字节流转变为一系列的结构化对象。
RPC序列化建议的特性
1.紧凑(Compact)即方便网络传输,充分利用存储空间
2.快速(Fast)即序列化及反序列化性能要好
3.扩展性(Extensible)即协议有变化,可以支持新的需求
4.互操作性(Interoperable)即客户端及服务器端不依赖语言的实现
Hadoop使用Writables,满足紧凑、快速,不满足扩展能及互操作性
Writable 接口
package org.apach ...
Clojure 支持Java
- 博客分类:
- clojure
调用Java类
调用Constructor、Method、Field
(new classname)
(new java.util.Random)
java.util.Random@4f1ada
(def rnd (new java.util.Random))
#'user/rnd
(. class-or-instance member-symbol & args)
(. class-or-instance (member-symbol & args))
(. rnd nextInt)
-791474443 ...
Clojure 集合
- 博客分类:
- clojure
数据结构
List、Vect、Map、Set
List
(list 1 2 3) = (quote (1 2 3)) = '(1 2 3)
如果是symbol而不是数字或者字符串等,必须用'
'(a b c d)
(quote (a b c d))
(list a b c); CompilerException java.lang.RuntimeException: Unable to resolve symbol: a in this context, compiling:(NO_SOURCE_PATH:14)
...
http://www.infoq.com/cn/news/2011/01/nosql-why/ 写道
Flume NG 架构
- 博客分类:
- flume
介绍
Apache的Flume是一个分布式的,质量可靠,可有效地收集,汇总和来自许多不同来源的大量日志数据到集中的数据存储系统。目前,Flume是在Apache项目孵化。
架构
数据流模型
Flume事件被定义为 ...
HDP-Hadoop管理平台简介
- 博客分类:
- hadoop
转发:http://hortonworks.com/products/hortonworksdataplatform/
Hortonworks Data Platform
Hortonworks 数据管理平台(HDP)是一个基于Apache Hadoop 100%开源数据管理平台。它允许您载入,存储,处理和管理几乎任何格式和任何规模的数据。作为下一代企业数据架构的基础,HDP包括所有必要的组件,使企业可以快速的处理大数据。
hortonworks数据平台是理想的整合Apache Hadoop平台,利用其强大的功能及开源的低效成本。也是理想的解决方案供应 ...
HDP-Hadoop管理平台部署
- 博客分类:
- hadoop
Next Steps: Hortonworks Data Platform v1.0
Thank you for registering for the Hortonworks Data Platform. Hortonworks Data Platform is designed to be installed by IT operations personnel using Linux-friendly installation tooling. For HDP v1.0, the following instructions should help you to prep ...
(说明,名词对应解释 源-Source,接收器-Sink,通道-Channel)
配置
设置代理
Flume代理配置存储在本地配置文件。这是一个文本文件格式,是Java属性文件格式。在相同的配置文件,可以指定一个或多个代理的配置。配置文件包括每个源,接收器和通道,把它们连接在一起,形成数据流。
配置单个组件
流中每个组件(源,接收器或通道)都有名称,类型,和一组特定实例的属性。例如,Avro源需要一个接收数据的主机名(或IP地址)和端口号。一个内存通道可以有最大队列大小(“能力”),HDFS的Sink ...
akka(java)-Actors
- 博客分类:
- akka
Actor模式提供了并发及分布式系统的高度抽象。它使开发者很容易处理多线程及锁。Actors在1973年被Carl Hewitt定义,并在Erlang语言中实现。爱立信在电信系统中,使用Actors获得了成功。
创建Actors
Akka的actor会有Supervisor角色、Monitor角色、Worker角色。
定义Actor类
在Java语言中,我们会集成UntypedActor类并实现onReceive方法,这个方法有一个message的参数。
例子: