什么样的才是好代码

博客分类：

胡说八道

Hadoop 软件测试项目管理编程工作

一、背景说明最近时间相对比较宽裕了，相对于前些时候，可以说轻松了很多。于是偷得浮生半日闲，写点东西吧。其实对于这个话题，我在2010年的5月份的时候就想写了，但是那个时候专注于hadoop的技术学习，所以没有太多� ...

2011-01-21 12:00
浏览 1360
评论(0)
分类:非技术

难忘2010

博客分类：

胡说八道

Hadoop HBase 工作框架 Web

其实在2011元旦的时候就打算写些东西用以回顾2010年，但是由于时间上紧张，实在是抽不出时间来写点东西，因此拖延到现在才写。干IT这个行业也有些年头了，说实话，2010年是我最难忘的一年。在工作内容、发展方向以及个人� ...

2011-01-21 12:00
浏览 815
评论(0)
分类:非技术

Hadoop的基准测试工具使用(部分转载)

博客分类：

hadoop

Hadoop Mapreduce Gmail 应用服务器框架

一、背景由于以前没有细看hadoop提供的测试工具，只是在关注hadoop本身的内容，所以很多的性能测试都忽略了。最近花了一周的时间准备做个性能测试，但是都是采用自己的方法得出的抽象值。今天看淘宝的博客，提到hadoop自带� ...

2011-01-21 11:58
浏览 1611
评论(0)
分类:非技术

一、背景最近2个月时间一直在一个阴暗的地下室的角落里工作，主要内容就是hadoop相关的应用。在这期间，Hadoop的应用确实得到认可，但是同时也带来了一些问题，软件方面我就不在这里说了，只说说一些物理方面的局限：1、众所周知，hadoop能够接受任何类型的机器加入集群，在多不在精。但是这带来一个问题，机房的空间开销以及电费。2、机器太多，人力维护成本也是增加的。机柜啊、物理空间都是个不小的负担和开销。刚好，在这个问题产生的同时，十分幸运的被一同事叫出来，去参加一个会议，得以有机会走上地面。这个会议是个联合性质的，多个公司的人在一起。其中有一家公司在海量数据计算方面力推hadoop，并做了比较好 ...

2011-01-21 11:58
浏览 1040
评论(0)
分类:非技术

Map/Reduce的内存使用设置

博客分类：

hadoop

Hadoop Linux Gmail 制造数据结构

一、背景今天采用10台异构的机器做测试，对500G的数据进行运算分析，业务比较简单，集群机器的结构如下：A：双核CPU×1、500G硬盘×1，内存2G×1（Slaver），5台B：四核CPU×2、500G硬盘×2，内存4G×2（Slaver），4台C：四核CPU×2、500G硬� ...

2011-01-21 11:57
浏览 1651
评论(0)
分类:非技术

Hadoop开发常用的InputFormat和OutputFormat(转)

博客分类：

hadoop

Hadoop 正则表达式 F#框架

Hadoop中的Map Reduce框架依赖InputFormat提供数据，依赖OutputFormat输出数据；每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发，本文介绍几种常用的。 TextInputFormat 用于读取纯文本文件，文件被分为一� ...

2011-01-21 11:55
浏览 1489
评论(0)
分类:非技术

SecondaryNamenode应用摘记

博客分类：

hadoop

Hadoop XML JDK Linux Gmail

一、环境 Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候，由于操作系统的原因，导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是，出问题的机器就是Master。当时心里就凉了半截，因为secondarynamenode配置也是在这个机器上（默认的，没改过）。不过万幸的是这个集群是测试环境，所以问题不大。借这个缘由，我将secondarynamenode重新配置到其他机器上，并做namenode挂掉并恢复的测试。三、操作 1、关于secondarynamenode网上有写不错的文章做说明，这里我只是想说关键一点， ...

2010-11-04 15:54
浏览 1069
评论(0)
分类:企业架构

Shell脚本执行Hive语句

博客分类：

hive

脚本 Linux Hadoop Bash 工作

一、环境1、Hadoop 0.20.22、Hive 0.53、操作系统 Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux二、步骤1、直接贴上脚本吧#!/bin/bash#give the params: name value tablenameif [ $# -eq 3 ]then name=$1 value=$2 tablename=$3 echo name=${name} echo value=${value} echo tablename=${tab ...

2010-10-27 09:50
浏览 2073
评论(0)
分类:企业架构

关于Hive建表需要注意的问题

博客分类：

hive

Linux Hadoop JDK

一、环境1、Hadoop 0.20.22、Hive 0.5.03、JDK 1.64、操作系统：Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux二、注意事项1、关于数字类型支持的位数类型支持数字位数tinyint 3位数字smallint 5位数字int 10位数字bigint 19位数字对于数字类型的存放，如果数字很长，但是对这个字段的值不需要进行计算，个人认为可以就是存放为string。如果数字字段的值超过了设定的字段类型（例如，存放数字是20位，但是 ...

2010-10-27 09:50
浏览 1218
评论(0)
分类:企业架构

Hive-0.5中SerDe概述

博客分类：

hive

Hadoop Apache 数据结构 Linux .net

一、背景1、当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；接收方则需要把字节序列恢复为对象，称为对象的反序列化。 2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。 3、Hive可以方便的将数据加载到表中而不需要对数据进行转换，这样在处理海量数据时可以节省大量的时间。二、技术细节1、SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。 2、用户在建表时可以用自定义的SerDe或使用Hive自带的Se ...

2010-10-27 09:49
浏览 1777
评论(0)
分类:企业架构

Hive0.5中Partition简述

博客分类：

hive

数据结构

一、背景1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。二、技术细节1、一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。2、表和列名不区分大小写。3、分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅 ...

2010-10-27 09:49
浏览 1047
评论(0)
分类:企业架构

Hive-0.5中UDF和UDAF简述

博客分类：

hive

Hadoop Apache 数据结构 Mapreduce C

一、UDF1、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/String, Hadoop IntWritable/Textc）用户 ...

2010-10-27 09:48
浏览 1231
评论(0)
分类:企业架构

Hive的JDBC连接

博客分类：

hive

JDBC Derby SQL SQL Server Hadoop

一、环境Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6二、使用目的1、一般来说我们对hive的操作都是通过cli来进行，也就是Linux的控制台，但是，这样做本质上是每个连接都存放一个元数据，各个之间都不相同，所以，对于这样的模式我建议是用来做一些测试比较合适，并不适合做产品的开发和应用。2、因此，就产生的JDBC连接的方式，当然还有其他的连接方式，比如ODBC等。三、连接的配置1、修改hive-site.xml<property> <name>javax.jdo.option.ConnectionURL</name> <!- ...

2010-10-27 09:48
浏览 3107
评论(0)
分类:企业架构

Hive安装手册

博客分类：

hive

Linux Hadoop 嵌入式数据结构 JDK

一、安装准备1、下载hive-0.5.0-bin版本：http://apache.etoak.com/hadoop/hive/hive-0.5.0/2、JDK版本：jdk-6u20-linux-i586.bin 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本： 192.168.3.131 namenode 192.168.3.132 datanode 192.168 ...

2010-10-27 09:47
浏览 1191
评论(0)
分类:企业架构

Hive使用杂记

博客分类：

hive

Derby 数据结构 Hadoop Web Linux

一、环境描述1、Hadoop版本0.20.2，操作系统Linux、JDK 1.62、Hive版本0.5.0二、元数据的存储1、如果之前进行了建表操作，但是后来对hdfs format后，通过Hive的cli来输入指令show tables查看表，表结构依然存在，但是hdfs文件系统中对应的目� ...

2010-10-27 09:47
浏览 1806
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

什么样的才是好代码

难忘2010

Hadoop的基准测试工具使用(部分转载)

分布式集群中的硬件选择

Map/Reduce的内存使用设置

Hadoop开发常用的InputFormat和OutputFormat(转)

SecondaryNamenode应用摘记

Shell脚本执行Hive语句

关于Hive建表需要注意的问题

Hive-0.5中SerDe概述

Hive0.5中Partition简述

Hive-0.5中UDF和UDAF简述

Hive的JDBC连接

Hive安装手册

Hive使用杂记

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>