Pig 调优实践经验总结（转载）

Pig hadoop

Pig 调优实践经验总结张贵宾 guibin.beijing@gmail.com 2012-01-17 本文会不断更新，欢迎大家补充。 1. pig.maxCombinedSplitSize 和 pig.splitCombination 在实际使用PIG处理数据时，会经常要处理大批量的小文件。在这种情况下，如果不对Pig脚本进行任何特别设置，默认情况下很有可能会遇到类似这样的“命名空间超过配额限制”的错误： [plain] view plaincopy

2013-01-18 14:56
浏览 1858
评论(0)
分类:开源软件

Hadoop-0.20.2的log存放时间控制

Hadoop

1. 想要在JobTracker的WebUI上（master:50030）多保持几个job执行状态，默认是100个调整Hadoop配置文件，比如调整为200个 <property> <name>mapred.jobtracker.completeuserjobs.maximum</name> <value>200</value> </property> 2. 想要在JobTracker的WebUI上延长job执行状态的存放时间，默认是24小时，现在调整为72小时， ...

2012-12-15 16:34
浏览 1193
评论(0)
分类:开源软件

Hadoop的TestDFSIO测试（转载）

http://adaishu.blog.163.com/blog/static/175831286201151272221903/ 为了测试Hadoop用mapreduce方式读写文件系统的性能，开发了TestDFSIO，用法如下：写测试cd到hadoop安装目录:# cd hadoop看看内存情况：# free -g

2012-09-15 21:42
浏览 6793
评论(0)
分类:开源软件

The Anatomy of Hadoop IO Pipeline(译)(转载）

作者：Owen Omalley 2009-8-27 原文：http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/ 译者：phylips@bmy 2011-8-28 出处：http://duanple.blog.163.com/blog/static/70971767201172902737677/ 引言在一个典型的Hadoop MapReduce job中，通常是从HDFS上读取输入文件。为减少文件大小，文件数据通常是压缩过的，因此读取之后需要进行解压 ...

2012-09-15 20:34
浏览 1529
评论(0)
分类:开源软件

CentOS 6.3上安装Gnuplot 4.4.2（转载）

Compiling Gnuplot 4.4.2 on CentOS 5.5 CentOS is a really fine platform for professional Linux servers which is - among others - characterized by stable software releases. However, especially in a research environment every once in a while you need a recent version of a software. CentOS ships wi ...

2012-09-12 13:50
浏览 6980
评论(0)
分类:开源软件

Centos 6.3上安装配置KVM

修改自http://sunshyfangtian.blog.51cto.com/1405751/503878 作业环境服务器端操作系统：CentOS 6.3 final x86_64 IP: 133.133.10.50 Hostname：myKVMKVM：qemu-kvm-0.12.1.2-2.295.el6_3.2.x86_64 客户端：Ubuntu和Win7，先在服务器端装好VNC，通过VNC连接服务器CentOS 一、安装KVM及相关软件 1、KVM 需要有 CPU 的支持（Intel vmx 或 AMD svm），在安装 KVM 之前检查一下 CPU 是 ...

2012-09-09 16:35
浏览 6269
评论(0)
分类:操作系统

CentOS 6.0 下 VNC 配置方法（转载）

转载自http://www.laozhe.net/articles/301.html CentOS 6.0 下 VNC 配置方法 2011年09月2日系统专区没有评论 1,255人围观过　　最近找了一台 IBM 的老服务器折腾了一下，学习了一下 Linux 技术。这台服务器很老了，在安 ...

2012-09-09 11:57
浏览 2317
评论(0)
分类:操作系统

Hadoop-0.20.2 Child.java bug

hadoop jvm

} finally { RPC.stopProxy(umbilical); MetricsContext metricsContext = MetricsUtil.getContext("mapred"); //此处的“mapred”应该为“jvm” metricsContext.close(); // Shutting down log4j of the child-vm... // This assumes that on return from Task.run() // th ...

2012-04-06 21:24
浏览 1185
评论(0)
分类:开源软件

Hadoop-0.20.2下Hbase安装

hadoop hbase

为了研究HBase，在Hadoop-0.20.2上安装HBase-0.90.4，结果出了很多问题。先找了几虚拟机练练手，配置如下： 133.133.134.116 masster 133.133.134.115 slave1 133.133.134.80 slave2 当然事先已经装好了hadoop-0.20.2。 1、官网上下载hbase-0.90.4.tar.gz后解压到master节点上。 2、修改conf下的配置文件 2.1 修改hbase-site.xml如下 <?xml version="1.0"?&g ...

2011-10-19 22:08
浏览 7191
评论(0)
分类:开源软件

Hadoop的JVM重用

hadoop jvm 参数配置

Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks，默认是1，表示一个JVM上最多可以顺序执行的task数目（属于同一个Job）是1。也就是说一个task启一个JVM。比如我配的是每个slave节点最多同时运行8个map和8个reduce。那么在map阶段，slave节点会启动最多8个JVM用于map。如下： root@slave1:~# jps 28291 Child 28290 Child 28281 Child 28293 Child 28277 Child 1487 DataNode 28298 ...

2011-10-13 20:19
浏览 12499
评论(0)
分类:开源软件

Mahout-0.5运行时异常处理

mahout hadoop exception

很早就装上了mahout-distribution-0.5，结果运行第一个例子Canopy Clustering的时候就报错，在Mahout的官方主页tutorial页面里写了comment，说明了出错的地方，结果没人搭理。运行命令如下： root@master:/opt/mahout-distribution-0.5# bin/mahout o ...

2011-10-10 17:38
浏览 8165
评论(3)
分类:开源软件

Hadoop的TeraSort问题

Hadoop TeraSort

第一步是运行TeraGen来产生数据，原始命令如下： root@master:/opt/hadoop-0.20.2# hadoop jar hadoop-0.20.2-examples.jar teragen 10000000000 /user/terasort/input1TB 由于Hadoop默认的配置文件中，设置的map task个数为2，而teragen也没给设定map task个数的� ...

2011-09-29 16:41
浏览 4852
评论(0)
分类:开源软件

org.apache.hadoop.io.WritableUtils简单分析

hadoop 源码

package org.apache.hadoop.io; import java.io.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.ReflectionUtils; import java.util.zip.GZIPInputStream; import java.util.zip.GZIPOutputStream; public final class WritableUtils { /** * 压缩数据流 -> ...

2011-09-27 16:10
浏览 3471
评论(0)
分类:开源软件

Linux集群时间同步设置

Linux 集群时间同步 ubuntu

打算将11台Linux集群时间同步一下，操作系统都为Ubuntu 11.04 x86 64位选定其中一台133.133.10.2作为时间服务器（ntp server），其他节点与该节点进行时间同步。 1、在133.133.10.2（monitor）上安装ntp server。 root@monitor:~# apt-get install ntp 2、修改/etc/ntp.conf如下：（参考了http://blog.sina.com.cn/s/blog_6b86fdc50100ojfn.html） # /etc/ntp.conf, configuratio ...

2011-09-24 11:32
浏览 9950
评论(0)
分类:操作系统

Hadoop-0.20.2的PiEstimator问题

hadoop piestimator

直接运行Hadoop-0.20.2的PiEstimator.java的话，会报"java.lang.ArithmeticException: Non-terminating decimal expansion; no exact representable decimal result." 的错误，原因是算出的Pi值没有设定小数位数（Pi是无理数）。解决方法： 1、去https://issues.apache.org/jira/browse/MAPREDUCE-1880下载m1880_20100619_0.20.patch。 2、为hadoop-0.20.2打 ...

2011-09-05 21:11
浏览 1752
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论