- 浏览: 141918 次
- 性别:
- 来自: 上海
最新评论
-
xueyinv86:
你这个增强版的wordcount是在哪个版本的hadoop上跑 ...
MapReduce入门程序WordCount增强版 -
chenjianjx:
很不错的收集!
几篇关于Hadoop+Hive数据仓库的入门文章 -
canedy:
import org.apache.hadoop.hbase. ...
使用HBase的一个典型例子,涉及了HBase中很多概念 -
天籁の圁:
你的图全部挂了啊
基于Eclipse的Hadoop应用开发环境的配置 -
landyer:
happinesss 写道你是做java开发的吗我是杂货铺,什 ...
MongoDB1.8安装、分布式自动分片(Auto-Sharding)配置备忘
文章列表
Hadoop计算平台和Hadoop数据仓库的区别http://datasearch.ruc.edu.cn/~boliangfeng/blog/?tag=%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93Hive 随谈(三)– Hive 和数据库的异同http://www.tbdata.org/archives/551Hadoop Ecosystem解决方案---数据仓库http://www.cnblogs.com/OnlyXP/archive/2009/10/14/1583450.htmlhadoop+hive 做数据仓库 & 一些测试http://hi.baidu ...
整个Hadoop家族由以下几个子项目组成:
成员名
用途
在上一讲<<云框架Hadoop之部署Hive>>上,我们谈到了hadoop的数据仓库hive.下面我们说明一下hive的简单查询应用。在hadoop环境下,shell下直接输入hive,就会出现hive shell操作界面。关于HIVE里的SQL,我习惯性的将HIVE的SQL语句叫做HQL,事实上HQL有很多和SQL类似的地方,还有一点要说明的是HQL数据存储位置是在Hadoop上的HDFS。 HIVE的数据类型 。HiveQL只支持以下几种基本数据类型TINYINT, SMALLINT, INT, BIGINT, DOUBLE, STRING。支持的复杂数据类型有 ...
很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。
1.将select的结果放到一个的的表格中(首先要用create table创建新的表格)
insert overwrite table test
select uid,name from test2;
2.将select的结果放到本地文件系统中
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
3.将sel ...
由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是\,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:
create table test(uid string,name string)row format delimited fields terminated by '\t';
通过这种方式,完成分隔符的指定。
然后通过hadoop fs -cp或者hadoop distcp 进行文件夹复制。
由于数据复制的成本比较高,时间比较慢,当不需要复制数据的时候,可以直接采取移动的方式将hadoop数据转移到h ...
udf编写入门大写转小写package com.afan;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFLower extends UDF{ public Text evaluate(final Text s){ if (null == s){ return null; } return new Text(s.toString().toLowerCase()); }}1加载udf jar ...
Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同 时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提 供了HDFS分布式存储系统和map/reduce分布式计算系统,而Hive在这两个系统之上,使得用户只需使用熟悉SQL语言就能进行分布式计算,而 map/reduce编程往往是相当复杂的。Hive在少量数据运算或是短时间内的重复查询上, ...
单台服务器上学习Hadoop和Hive十分钟教程
Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具。
一般的学习者不是太容易找到多台服务器来做集群学习hadoop,所以hadoop官方文档提供了在单台服务器上运行hadoop的指南(hive是基于hadoop的,它不关心有几台服务器,只要有hadoop就行了),来教大家怎样在一台硬件机器上模拟一个hadoop集群,这种模式只适合用来学习练手,真正要做分布式计算,是会配置在多台机器上的。
下面是一个最简单的安装使用hadoop/hive的文档:
下载Hadoop、Hive
a) ...
一、安装准备
1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/
2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)
3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux
4、三台机器,192.168.3.131(master),192.168.3.132(slave),192.168.3.133(sla ...
基于云计算平台的并行数据挖掘
已有 1261 次阅读 2010-5-7 14:26 |个人分类:cloud|系统分类:科研笔记
作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/619e36d436be74c950da4b2d.html
场景:
hadoop集群A
ip: 192.168.11.*
hadoop-namenode:192.168.11.A
user:hadoop
store-serverB
ip:192.168.11.B
user:viewlog
需要在store-serverB上定时每天导数据到hadoop集群A;
配置HDFS 配置HDFS应该是一件不难的事情。首先,我们先配好HDFS的配置文件,再对NameNode进行format操作。 配置Cluster 这里,我们假定,你已经下载了Hadoop的一个版本,并解压完毕。 Hadoop安装目录下的conf是hadoop存放配置文件的目录,里面有一些XML文件需要配置。conf/hadoop-defaults.xml 文件包含了hadoop的任何参数的默认值。这个文件应该是只读的。你可以通过在conf/hadoop-site.xml中设置新值的方式来覆盖默认的 配置。集群上所有的机器的hadoop-site.x ...
20:55 2010-6-2
运行环境:
Hadoop.0.20.2
CentOS 5.4
java version "1.6.0_20-ea"
配置的是单机Hadoop环境
先看下我的运行截图
主要参考这篇文章
http://myjavanotebook.blogspot.com/2008/05/hadoop-file-system-tutorial.html
1.Copy a file from the local file system to HDFS
The srcFile variable needs to ...
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029499.html
转者注:本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的,然而查找资料的时候,发现了这篇文章,并且发现caibinbupt已经对Hadoop的源代码已经进行了详细的分析,推荐大家阅读。
转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx
参考:
1 caibinbupt的源代码分析http://caibinbupt.javaeye.co ...
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029497.html
Hadoop 学习总结之一:HDFS简介
Hadoop学习总结之二:HDFS读写过程解析
Hadoop学习总结之三:Map-Reduce入门