`
tangjunliang
  • 浏览: 109224 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
完成的功能,执行t.sh,并且通过workflow像t.sh传递参数 workflow.xml <workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf"> <start to="shell-node"/> <action name="shell-node"> <shell xmlns="uri:oozie:shell-action:0.2"> ...
前一阵子发现用户提交的hive query和hadoop job会导致集群的load非常高,经查看配置,发现很多用户擅自将mapred.child.java.opts设置的非常大,比如-Xmx4096m(我们默认设置是-Xmx1024m),  导致了tasktracker上内存资源耗尽,进而开始不断swap磁盘上数据,load飙升 TaskTracker在spawn一个map/reduce task jvm的时候,会根据用户JobConf里面的值设定jvm的参数,然后写入一个taskjvm.sh文件中,然后调用linux命令"bin/bash -c taskjvm.sh"来执 ...
hadoop.tmp.dir 默认值: /tmp 说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。 fs.trash.interval 默认值: 0 说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。 fs.inmemory.size.mb 默认值: 说明: reduce阶段用户合并map输出的内存限制。这里设置200,可根据自身 ...
Every file, directory and block in HDFS is represented as an object in the namenode’s memory, each of which occupies 150 bytes, as a rule of thumb. So 10 million files, each using a block, would use about 3 gigabytes of memory. 摘自:http://blog.cloudera.com/blog/2009/02/the-small-files-probl ...
查看文件夹下的文件个数(当前目录的文件数) ls -l | grep "^-" | wc -l   说明: ls   -l   长列表输出该目录下文件信息(注意这里的文件,不同于一般的文件,可能是目录、链接、设备文件等)     grep   ^-   这里将长列表输出信息过滤一部分,只保留一般文件,如果只保留目录就是   ^d     wc   -l   统计输出信息的行数,因为已经过滤得只剩一般文件了,所以统计结果就是一般文件信息的行数,又由于一行信息对应一个文件,所以也就是文件的个数。 查看文件夹下的文件个数(当前目录的文件和子文件夹的文件数) find   ...
测试spark on yarn spark版本:spark-0.9.0-incubating-bin-hadoop2 WordCount.scala 代码: import org.apache.spark._ import SparkContext._ object WordCount { def main(args: Array[String]) { if (args.length != 3 ){ println("usage is org.test.WordCount <master> <input> <ou ...
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。          MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前 ...
   我们知道每个reduce task输入的key都是按照key排序的。       但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。       在map结束之后shuffle要做的事情:       map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。io.sort.mb 用于控制map 输出时候的内存大小,默认100Mb。 当map所使用的buffer达到一定比例的时候,会启动一个线程来将内存中数据写入磁盘。此时map过程不会暂停直到内存消耗完为止。这个线程会先 ...
hadoop执行JOB在reduce阶段报了下面的错误: Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:380) a ...
今天在执行hive的时候报了下面的错: 2014-02-25 09:07:20,021 INFO [IPC Server handler 17 on 60055] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1393225005206_0830_m_000630_0 is : 0.0 2014-02-25 09:07:20,023 FATAL [IPC Server handler 15 on 60055] org.apache.hadoop.mapred.TaskA ...
今天用oozie调度hadoop任务时,发现在每次在执行时,RM进程就被kill掉了,查看yarn-hadoop-resourcemanager-master1.log日志,报了下面的错: Error in storing RMDelegationToken with sequence number: 1962 出现上面的错的原因是由于zookeeper造成的,由于我们做了RM 的 HA , 进入zookeeper, zkCli.sh -server slave1:2181 ls /rmstore/ZKRMStateRoot/RMDTSecretManagerRoot 是由于Z ...
今天用sqoop往oracle导数据的时候报了下面的一个错: 14/02/11 09:33:56 ERROR security.UserGroupInformation: PriviledgedActionException as:hadoop (auth:SIMPLE) cause:java.io.IOException: Max block location exceeded for split: Paths:/data/out/g_hour_dstc_net_vsn_cell_zone/4/000004_0:134217728+77776807,/data/out/g_hour_ds ...
   今天写了一个shell脚本,单独执行的时候没有任何问题,但是当用crontab调度的时候却怎么都无法执行,原因是没有加载到相应的环境变量。    提供一个解决办法: 执行crontab -e  用以下方式添加:    30 10 * * * source ~/.bashrc && cd /home/work/mydir && ./mypro.sh    这样相应的环境变量就能加载上去。
hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1 jdk版本:jdk-7u40-linux-x64 环境准备: 10.95.3.100 master1 10.95.3.101 master2 10.95.3.103 slave1 10.95.3.104 slave2 说明:本安装没有进行hdfs HA配置,NameNode和SecondaryNameNode都在master1上,其他三个节点作为DN节点。 ...
hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1 今天在执行sqoop往hbase里导数的时候,DN节点报了下面的错: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnRuntimeException at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethod ...
Global site tag (gtag.js) - Google Analytics