- 浏览: 77129 次
- 性别:
- 来自: 北京
最新评论
-
hitliya:
请问"将Mahout导入Eclipse后,在maho ...
Mahout-0.5运行时异常处理 -
JerryLead:
hongst 写道刚好遇到一样的错误,可以通过添加环境变量的方 ...
Mahout-0.5运行时异常处理 -
hongst:
刚好遇到一样的错误,可以通过添加环境变量的方法解决:expor ...
Mahout-0.5运行时异常处理
文章列表
Pig 调优实践经验总结
张贵宾
guibin.beijing@gmail.com
2012-01-17
本文会不断更新,欢迎大家补充。
1. pig.maxCombinedSplitSize 和 pig.splitCombination
在实际使用PIG处理数据时,会经常要处理大批量的小文件。在这种情况下,如果不对Pig脚本进行任何特别设置,默认情况下很有可能会遇到类似这样的“命名空间超过配额限制”的错误:
[plain] view plaincopy
1. 想要在JobTracker的WebUI上(master:50030)多保持几个job执行状态,默认是100个
调整Hadoop配置文件,比如调整为200个
<property>
<name>mapred.jobtracker.completeuserjobs.maximum</name>
<value>200</value>
</property>
2. 想要在JobTracker的WebUI上延长job执行状态的存放时间,默认是24小时,现在调整为72小时, ...
http://adaishu.blog.163.com/blog/static/175831286201151272221903/
为了测试Hadoop用mapreduce方式读写文件系统的性能,开发了TestDFSIO,用法如下:写测试cd到hadoop安装目录:# cd hadoop看看内存情况:# free -g
作者:Owen Omalley 2009-8-27
原文:http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/
译者:phylips@bmy 2011-8-28
出处:http://duanple.blog.163.com/blog/static/70971767201172902737677/
引言
在一个典型的Hadoop MapReduce job中,通常是从HDFS上读取输入文件。为减少文件大小,文件数据通常是压缩过的,因此读取之后需要进行解压 ...
Compiling Gnuplot 4.4.2 on CentOS 5.5
CentOS is a really fine platform for professional Linux servers which is - among others - characterized by stable software releases. However, especially in a research environment every once in a while you need a recent version of a software. CentOS ships wi ...
修改自http://sunshyfangtian.blog.51cto.com/1405751/503878
作业环境
服务器端操作系统:CentOS 6.3 final x86_64
IP: 133.133.10.50
Hostname:myKVMKVM:qemu-kvm-0.12.1.2-2.295.el6_3.2.x86_64
客户端:Ubuntu和Win7,先在服务器端装好VNC,通过VNC连接服务器CentOS
一、安装KVM及相关软件
1、KVM 需要有 CPU 的支持(Intel vmx 或 AMD svm),在安装 KVM 之前检查一下 CPU 是 ...
转载自http://www.laozhe.net/articles/301.html
CentOS 6.0 下 VNC 配置方法
2011年09月2日 系统专区 没有评论 1,255人围观过
最近找了一台 IBM 的老服务器折腾了一下,学习了一下 Linux 技术。这台服务器很老了,在安 ...
} finally {
RPC.stopProxy(umbilical);
MetricsContext metricsContext = MetricsUtil.getContext("mapred"); //此处的“mapred”应该为“jvm”
metricsContext.close();
// Shutting down log4j of the child-vm...
// This assumes that on return from Task.run()
// th ...
为了研究HBase,在Hadoop-0.20.2上安装HBase-0.90.4,结果出了很多问题。
先找了几虚拟机练练手,配置如下:
133.133.134.116 masster
133.133.134.115 slave1
133.133.134.80 slave2
当然事先已经装好了hadoop-0.20.2。
1、官网上下载hbase-0.90.4.tar.gz后解压到master节点上。
2、修改conf下的配置文件
2.1 修改hbase-site.xml如下
<?xml version="1.0"?&g ...
Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks,默认是1,表示一个JVM上最多可以顺序执行的task数目(属于同一个Job)是1。也就是说一个task启一个JVM。
比如我配的是每个slave节点最多同时运行8个map和8个reduce。那么在map阶段,slave节点会启动最多8个JVM用于map。如下:
root@slave1:~# jps
28291 Child
28290 Child
28281 Child
28293 Child
28277 Child
1487 DataNode
28298 ...
很早就装上了mahout-distribution-0.5,结果运行第一个例子Canopy Clustering的时候就报错,在Mahout的官方主页tutorial页面里写了comment,说明了出错的地方,结果没人搭理。
运行命令如下:
root@master:/opt/mahout-distribution-0.5# bin/mahout o ...
第一步是运行TeraGen来产生数据,原始命令如下:
root@master:/opt/hadoop-0.20.2# hadoop jar hadoop-0.20.2-examples.jar teragen 10000000000 /user/terasort/input1TB
由于Hadoop默认的配置文件中,设置的map task个数为2,而teragen也没给设定map task个数的 ...
package org.apache.hadoop.io;
import java.io.*;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.util.ReflectionUtils;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;
public final class WritableUtils {
/**
* 压缩数据流 -> ...
打算将11台Linux集群时间同步一下,操作系统都为Ubuntu 11.04 x86 64位
选定其中一台133.133.10.2作为时间服务器(ntp server),其他节点与该节点进行时间同步。
1、在133.133.10.2(monitor)上安装ntp server。
root@monitor:~# apt-get install ntp
2、修改/etc/ntp.conf如下:(参考了http://blog.sina.com.cn/s/blog_6b86fdc50100ojfn.html)
# /etc/ntp.conf, configuratio ...
直接运行Hadoop-0.20.2的PiEstimator.java的话,会报"java.lang.ArithmeticException: Non-terminating decimal expansion; no exact representable decimal result." 的错误,原因是算出的Pi值没有设定小数位数(Pi是无理数)。
解决方法:
1、去https://issues.apache.org/jira/browse/MAPREDUCE-1880下载m1880_20100619_0.20.patch。
2、为hadoop-0.20.2打 ...