几篇关于Hadoop+Hive数据仓库的入门文章

博客分类：

hadoop

Hadoop计算平台和Hadoop数据仓库的区别http://datasearch.ruc.edu.cn/~boliangfeng/blog/?tag=%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93Hive 随谈（三）– Hive 和数据库的异同http://www.tbdata.org/archives/551Hadoop Ecosystem解决方案---数据仓库http://www.cnblogs.com/OnlyXP/archive/2009/10/14/1583450.htmlhadoop+hive 做数据仓库 & 一些测试http://hi.baidu ...

2011-06-05 15:21
浏览 1540
评论(1)
分类:编程语言

Hadoop家族

博客分类：

hadoop

Hadoop Mapreduce HBase Google SQL

整个Hadoop家族由以下几个子项目组成：成员名用途

2011-06-05 15:01
浏览 1402
评论(0)
分类:编程语言

云框架Hadoop之Hive基本操作

博客分类：

hadoop

框架 Hadoop SQL 数据结构 C

在上一讲<<云框架Hadoop之部署Hive>>上，我们谈到了hadoop的数据仓库hive.下面我们说明一下hive的简单查询应用。在hadoop环境下，shell下直接输入hive,就会出现hive shell操作界面。关于HIVE里的SQL，我习惯性的将HIVE的SQL语句叫做HQL，事实上HQL有很多和SQL类似的地方,还有一点要说明的是HQL数据存储位置是在Hadoop上的HDFS。 HIVE的数据类型。HiveQL只支持以下几种基本数据类型TINYINT, SMALLINT, INT, BIGINT, DOUBLE, STRING。支持的复杂数据类型有 ...

2011-06-05 14:47
浏览 1252
评论(0)
分类:编程语言

hive数据导出

博客分类：

hadoop

很多时候，我们在hive中执行select语句，希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中，hive提供了方便的关键词，来实现上面所述的功能。 1.将select的结果放到一个的的表格中（首先要用create table创建新的表格） insert overwrite table test select uid,name from test2; 2.将select的结果放到本地文件系统中 INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a; 3.将sel ...

2011-06-05 14:37
浏览 3122
评论(0)
分类:编程语言

hive数据导入——从HDFS导入

博客分类：

hadoop

Hadoop

由于很多数据在hadoop平台，当从hadoop平台的数据迁移到hive目录下时，由于hive默认的分隔符是\,为了平滑迁移，需要在创建表格时指定数据的分割符号，语法如下： create table test(uid string,name string)row format delimited fields terminated by '\t'；通过这种方式，完成分隔符的指定。然后通过hadoop fs -cp或者hadoop distcp 进行文件夹复制。由于数据复制的成本比较高，时间比较慢，当不需要复制数据的时候，可以直接采取移动的方式将hadoop数据转移到h ...

2011-06-05 14:36
浏览 2568
评论(0)
分类:编程语言

编写hive udf函数

博客分类：

hadoop

Hadoop Mapreduce Ubuntu JSP Apache

udf编写入门大写转小写package com.afan;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFLower extends UDF{ public Text evaluate(final Text s){ if (null == s){ return null; } return new Text(s.toString().toLowerCase()); }}1加载udf jar ...

2011-06-04 20:52
浏览 3856
评论(0)
分类:编程语言

HIVE使用笔记，导入日志

博客分类：

hadoop

Hadoop 数据结构 SQL Oracle MySQL

Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时，HiveQL语言能力不足时，它也能允许使用传统的map/reduce进行复杂数据分析。Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库，它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提供了HDFS分布式存储系统和map/reduce分布式计算系统，而Hive在这两个系统之上，使得用户只需使用熟悉SQL语言就能进行分布式计算，而 map/reduce编程往往是相当复杂的。Hive在少量数据运算或是短时间内的重复查询上， ...

2011-06-04 20:47
浏览 1489
评论(0)
分类:编程语言

单台服务器上安装Hadoop和Hive十五分钟教程

博客分类：

hadoop

Hadoop SSH Java Oracle SUN

单台服务器上学习Hadoop和Hive十分钟教程 Hadoop是个很流行的分布式计算解决方案，Hive是基于hadoop的数据分析工具。一般的学习者不是太容易找到多台服务器来做集群学习hadoop，所以hadoop官方文档提供了在单台服务器上运行hadoop的指南（hive是基于hadoop的，它不关心有几台服务器，只要有hadoop就行了），来教大家怎样在一台硬件机器上模拟一个hadoop集群，这种模式只适合用来学习练手，真正要做分布式计算，是会配置在多台机器上的。下面是一个最简单的安装使用hadoop/hive的文档：下载Hadoop、Hive a) ...

2011-06-04 14:54
浏览 1636
评论(0)
分类:编程语言

Hadoop分布式安装

博客分类：

hadoop

Hadoop SSH XSL Linux Scheme

一、安装准备 1、下载hadoop 0.20.2，地址：http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/ 2、JDK版本：jdk-6u20-linux-i586.bin （必须是1.6） 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器，192.168.3.131（master），192.168.3.132（slave），192.168.3.133（sla ...

2011-05-06 10:56
浏览 1006
评论(0)
分类:编程语言

基于云计算平台的并行数据挖掘

博客分类：

hadoop

数据挖掘云计算 Mapreduce Hadoop HBase

基于云计算平台的并行数据挖掘已有 1261 次阅读 2010-5-7 14:26 |个人分类:cloud|系统分类:科研笔记

2011-05-05 11:06
浏览 1737
评论(0)
分类:编程语言

hadoop 现实场景

博客分类：

hadoop

Hadoop Access XML Security Apache

作者：hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处和作者信息及版权声明http://hi.baidu.com/hovlj_1130/blog/item/619e36d436be74c950da4b2d.html 场景： hadoop集群A ip: 192.168.11.* hadoop-namenode:192.168.11.A user:hadoop store-serverB ip:192.168.11.B user:viewlog 需要在store-serverB上定时每天导数据到hadoop集群A；

2011-05-05 11:00
浏览 1601
评论(0)
分类:编程语言

hadoop 通用操作

博客分类：

hadoop

Hadoop 配置管理 XML 数据结构脚本

配置HDFS 配置HDFS应该是一件不难的事情。首先，我们先配好HDFS的配置文件，再对NameNode进行format操作。配置Cluster 这里，我们假定，你已经下载了Hadoop的一个版本，并解压完毕。 Hadoop安装目录下的conf是hadoop存放配置文件的目录，里面有一些XML文件需要配置。conf/hadoop-defaults.xml 文件包含了hadoop的任何参数的默认值。这个文件应该是只读的。你可以通过在conf/hadoop-site.xml中设置新值的方式来覆盖默认的配置。集群上所有的机器的hadoop-site.x ...

2011-05-04 15:09
浏览 1436
评论(0)
分类:编程语言

HDFS的JAVA接口API操作实例

博客分类：

hadoop

Java Hadoop OS CentOS Apache

20:55 2010-6-2 运行环境： Hadoop.0.20.2 CentOS 5.4 java version "1.6.0_20-ea" 配置的是单机Hadoop环境先看下我的运行截图主要参考这篇文章 http://myjavanotebook.blogspot.com/2008/05/hadoop-file-system-tutorial.html 1.Copy a file from the local file system to HDFS The srcFile variable needs to ...

2011-05-03 11:10
浏览 2222
评论(2)
分类:编程语言

(转)MapReduce源码分析总结

博客分类：

hadoop

Mapreduce Hadoop 配置管理应用服务器数据结构

原文地址：http://www.cnblogs.com/end/archive/2011/04/26/2029499.html 转者注：本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的，然而查找资料的时候，发现了这篇文章，并且发现caibinbupt已经对Hadoop的源代码已经进行了详细的分析，推荐大家阅读。转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx 参考： 1 caibinbupt的源代码分析http://caibinbupt.javaeye.co ...

2011-05-03 04:31
浏览 1030
评论(0)
分类:编程语言

Hadoop学习总结：Hadoop的运行痕迹

博客分类：

hadoop

Hadoop JVM Rack Apache log4j

原文地址：http://www.cnblogs.com/end/archive/2011/04/26/2029497.html Hadoop 学习总结之一：HDFS简介 Hadoop学习总结之二：HDFS读写过程解析 Hadoop学习总结之三：Map-Reduce入门

2011-05-03 04:30
浏览 1539
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

几篇关于Hadoop+Hive数据仓库的入门文章

Hadoop家族

云框架Hadoop之Hive基本操作

hive数据导出

hive数据导入——从HDFS导入

编写hive udf函数

HIVE使用笔记，导入日志

单台服务器上安装Hadoop和Hive十五分钟教程

Hadoop分布式安装

基于云计算平台的并行数据挖掘

hadoop 现实场景

hadoop 通用操作

HDFS的JAVA接口API操作实例

(转)MapReduce源码分析总结

Hadoop学习总结：Hadoop的运行痕迹

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>