- 浏览: 109224 次
- 性别:
- 来自: 北京
最新评论
-
zenoh:
是啊,我也纳闷,apache hadoop2.2.0的已经修复 ...
安装CDH5 hadoop2.2.0遇到的配置问题 -
Molisa:
你好,我有两个问题请教一下:1.为了密码安全,你有没有试过使用 ...
使用oozie调度sqoop从oracle导入hbase
文章列表
完成的功能,执行t.sh,并且通过workflow像t.sh传递参数
workflow.xml
<workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf">
<start to="shell-node"/>
<action name="shell-node">
<shell xmlns="uri:oozie:shell-action:0.2"> ...
前一阵子发现用户提交的hive query和hadoop job会导致集群的load非常高,经查看配置,发现很多用户擅自将mapred.child.java.opts设置的非常大,比如-Xmx4096m(我们默认设置是-Xmx1024m), 导致了tasktracker上内存资源耗尽,进而开始不断swap磁盘上数据,load飙升
TaskTracker在spawn一个map/reduce task jvm的时候,会根据用户JobConf里面的值设定jvm的参数,然后写入一个taskjvm.sh文件中,然后调用linux命令"bin/bash -c taskjvm.sh"来执 ...
hadoop.tmp.dir
默认值: /tmp
说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。
fs.trash.interval
默认值: 0
说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。
fs.inmemory.size.mb
默认值:
说明: reduce阶段用户合并map输出的内存限制。这里设置200,可根据自身 ...
Every file, directory and block in HDFS is represented as an object in the namenode’s memory, each of which occupies 150 bytes, as a rule of thumb. So 10 million files, each using a block, would use about 3 gigabytes of memory.
摘自:http://blog.cloudera.com/blog/2009/02/the-small-files-probl ...
查看文件夹下的文件个数(当前目录的文件数)
ls -l | grep "^-" | wc -l
说明:
ls -l 长列表输出该目录下文件信息(注意这里的文件,不同于一般的文件,可能是目录、链接、设备文件等)
grep ^- 这里将长列表输出信息过滤一部分,只保留一般文件,如果只保留目录就是 ^d
wc -l 统计输出信息的行数,因为已经过滤得只剩一般文件了,所以统计结果就是一般文件信息的行数,又由于一行信息对应一个文件,所以也就是文件的个数。
查看文件夹下的文件个数(当前目录的文件和子文件夹的文件数)
find ...
测试spark on yarn
spark版本:spark-0.9.0-incubating-bin-hadoop2
WordCount.scala 代码:
import org.apache.spark._
import SparkContext._
object WordCount {
def main(args: Array[String]) {
if (args.length != 3 ){
println("usage is org.test.WordCount <master> <input> <ou ...
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。
MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前 ...
我们知道每个reduce task输入的key都是按照key排序的。
但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。
在map结束之后shuffle要做的事情:
map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。io.sort.mb 用于控制map 输出时候的内存大小,默认100Mb。
当map所使用的buffer达到一定比例的时候,会启动一个线程来将内存中数据写入磁盘。此时map过程不会暂停直到内存消耗完为止。这个线程会先 ...
hadoop执行JOB在reduce阶段报了下面的错误:
Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4
at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:380)
a ...
今天在执行hive的时候报了下面的错:
2014-02-25 09:07:20,021 INFO [IPC Server handler 17 on 60055] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1393225005206_0830_m_000630_0 is : 0.0
2014-02-25 09:07:20,023 FATAL [IPC Server handler 15 on 60055] org.apache.hadoop.mapred.TaskA ...
今天用oozie调度hadoop任务时,发现在每次在执行时,RM进程就被kill掉了,查看yarn-hadoop-resourcemanager-master1.log日志,报了下面的错:
Error in storing RMDelegationToken with sequence number: 1962
出现上面的错的原因是由于zookeeper造成的,由于我们做了RM 的 HA , 进入zookeeper,
zkCli.sh -server slave1:2181
ls /rmstore/ZKRMStateRoot/RMDTSecretManagerRoot
是由于Z ...
今天用sqoop往oracle导数据的时候报了下面的一个错:
14/02/11 09:33:56 ERROR security.UserGroupInformation: PriviledgedActionException as:hadoop (auth:SIMPLE) cause:java.io.IOException: Max block location exceeded for split: Paths:/data/out/g_hour_dstc_net_vsn_cell_zone/4/000004_0:134217728+77776807,/data/out/g_hour_ds ...
今天写了一个shell脚本,单独执行的时候没有任何问题,但是当用crontab调度的时候却怎么都无法执行,原因是没有加载到相应的环境变量。
提供一个解决办法: 执行crontab -e 用以下方式添加:
30 10 * * * source ~/.bashrc && cd /home/work/mydir && ./mypro.sh
这样相应的环境变量就能加载上去。
hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1
jdk版本:jdk-7u40-linux-x64
环境准备:
10.95.3.100 master1
10.95.3.101 master2
10.95.3.103 slave1
10.95.3.104 slave2
说明:本安装没有进行hdfs HA配置,NameNode和SecondaryNameNode都在master1上,其他三个节点作为DN节点。
...
hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1
今天在执行sqoop往hbase里导数的时候,DN节点报了下面的错:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnRuntimeException
at java.lang.Class.getDeclaredMethods0(Native Method)
at java.lang.Class.privateGetDeclaredMethod ...