2.x MapReduce的测试类

博客分类：

Hadoop学习笔记

1 wordcount 2 倒排序 3 自定义分区（不同规则输出到不同的文件） 4 自定义文件输出 5 统计文件流 1 自定义输出类 package com.wzt.mapreduce.custom; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org. ...

2016-01-27 09:58
浏览 595
评论(0)
分类:开源软件

Sqoop

博客分类：

Hadoop学习笔记

sqoop的使用 ----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具 ----实质就是将导入导出命令转换成mapreduce程序来实现 sqoop安装：安装在一台节点上就可以了。 1.上传sqoop 2.安装和配置 ----修改配置文件 sqoop-env.sh(没有就创建一个) #Set path to where bin/hadoop is available export HADOOP_COMMON_HOME=/home/hadoop/app/hadoop-2.4.1 #Set path to where ...

2016-01-26 15:00
浏览 1161
评论(0)
分类:开源软件

kafka使用与安装

博客分类：

Hadoop学习笔记

Hadoop

集群安装 1、解压 2、修改server.properties broker.id=1 zookeeper.connect=weekend05:2181,weekend06:2181,weekend07:2181 3、将zookeeper集群启动 4、在每一台节点上启动broker 启动的时候如果虚拟机内存不足需要添加在kafka-server-start.sh 中：export KAFKA_HEAP_OPTS="-Xmx256M -Xms128M" bin/kafka-server-start.sh config/server. ...

2016-01-21 20:03
浏览 691
评论(0)
分类:开源软件

storm 的安装使用

博客分类：

Hadoop学习笔记

storm 应用场景：事实的数据流处理大数据系列： 1、安装一个zookeeper集群 2、上传storm的安装包，解压 3、修改配置文件storm.yaml #所使用的zookeeper集群主机 storm.zookeeper.servers: - "weekend05" - "weekend06" - "weekend07" #nimbus所在的主机名 nimbus.host: "weekend05" #启动进程数 ...

2016-01-19 17:42
浏览 652
评论(0)
分类:开源软件

Hbase 的Java API 操作

博客分类：

Hadoop学习笔记

hbase

Hbase 的Java API 操作 package com.wzt.dao; //package hbaseExec2; /* * 创建一个students表,并进行相关操作 */ import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.a ...

2016-01-19 16:00
浏览 1352
评论(0)
分类:开源软件

Hbase集群安装

博客分类：

Hadoop学习笔记

hbase

1.上传hbase安装包 2.解压 3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55 //告诉hbase使用外部的zk export HBASE_MANAGES_ZK=false vim hbase-site.xml <configuration> <!-- 指定hbase在HDFS ...

2016-01-19 10:17
浏览 975
评论(0)
分类:开源软件

HIVE的安装与使用

博客分类：

Hadoop学习笔记

1 解压到目录 2 配置文件修改元数据保存到mysql 3 创建表，就是在hdfs中创建一个文件夹，load数据就是将数据文件拷贝到hdfs表对应的目录下面。 4 创建表（默认为表类型为MANAGED_TABLE，数据是在表的目录下面）：数据就是文件，它可以一次插入一个文件数据，但不能插入一条数据。 CREATE TABLE page_vie (viewTime int ,useid BIGINT, page_url STRING,referrer_url STRING, ip STRING COMMENT 'IP Address of the User') ...

2016-01-15 20:19
浏览 774
评论(0)
分类:开源软件

HA 下执行JAVA操作hdfs

博客分类：

Hadoop学习笔记

1 拷贝HA中core.xml和hdfs.xml文件到工程src下 2 java代码，其中ns1是nameservice名称 public class HDFSHATest { public static void main(String[] args) throws Exception { Configuration conf = new Configuration() ; FileSystem fs = FileSystem.get( new URI("hdfs://ns1"),conf,"hadoop") ; ...

2016-01-14 19:02
浏览 1546
评论(0)
分类:开源软件

hadoop 2.x集群安装与配置

博客分类：

Hadoop学习笔记

集群中启动hadoop过程： ./zkServer.sh start 启动所有的zookeeper ，机器中会有QuorumPeerMain进程 ./start-dfs.sh 启动dfs会启动所有的namenode 和datanode，zkfs ./start-yarn.sh 启动yarn ，会启动ResourceManager和nodemanager ./yarn-daemon.sh start resourcemanager 单独启动另一台resourcemanager 1.修改Linux主机名(一定要修改，resourceManager会根据主机名 ...

2016-01-14 10:41
浏览 1082
评论(0)
分类:开源软件

zookeeper安装

博客分类：

Hadoop学习笔记

1 下载zookeeper 2 解压到安装目录 3 拷贝conf下zoo_sample.cfg配置文件为zoo.cfg 4 tickTime=2000 # The number of ticks that the initial # synchronization phase can take initLimit=10 # The number of ticks that can pass between # sending a request and getting an acknowledgement syncLimit=5 # the dir ...

2016-01-13 10:07
浏览 707
评论(0)
分类:开源软件

hadoop 2.x wordcount练习

博客分类：

Hadoop学习笔记

一、本地环境运行：（也可以本地程序调用hdfs的数据，但必须指定运行的用户，或者将分布式数据权限改成所有人都可以读写，否则权限异常elipse中可以设置-DHADOOP_USER_NAME=hadoop ）程序不在集群中运行。（数据可以是本地地址也可以是hdfs地址（hdfs://cloud:9000/wc/wordcount/input）） 1 设置环境 HADOOP_HOME E:\source_src\hadoop-2.5.2 path中添加 ;%HADOOP_HOME%\bin; 2 winutils工具包添加到hadoop的bi ...

2016-01-09 15:40
浏览 1491
评论(0)
分类:开源软件

linux-ubuntu操作

博客分类：

linux

ubuntu一些命令文件记载网络设置： sudo vi /etc/network/interfaces 主机名称： /etc/hostname

2016-01-05 19:50
浏览 745
评论(0)
分类:操作系统

Hadoop 2.x单节点部署学习。

博客分类：

Hadoop学习笔记

1 环境 hadoop-2.5.2 ubuntu 64位服务器 jdk1.7.0_72（tar文件，直接解压到usr/local ，配置环境变量） 2 所需要的软件，不同linux安装软件方式可能不一样： $ sudo apt-get install ssh $ sudo apt-get install rsync 3 下载hadoop:http://www.apache.org/dyn/closer.cgi/hadoop/common/ 4 解压hadoop 到要安装的目录 5 编辑hadoop所需要环境 etc/hadoop/hadoop-env.s ...

2015-12-30 14:44
浏览 850
评论(0)
分类:开源软件

Hadoop调用API对HDFS进行文件操作

通过java代码对HDFS进行操作：创建文件文件，读取文件，删除文件，文件列表，创建目录，当地文件上传到hdfs，获取所有节点信息，文件写入数据。 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileStatus; impo ...

2015-12-24 16:48
浏览 1105
评论(0)
分类:编程语言

简单游戏

博客分类：

管理与沟通

1 酒桌10秒念出所有人名称 2 抢凳子 3 踩气球 4 瞎子穿拖鞋 5 双人顶气球 6 蹲起游戏

2015-12-23 16:49
浏览 738
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

2.x MapReduce的测试类

Sqoop

kafka使用与安装

storm 的安装使用

Hbase 的Java API 操作

Hbase集群安装

HIVE的安装与使用

HA 下执行JAVA操作hdfs

hadoop 2.x集群安装与配置

zookeeper安装

hadoop 2.x wordcount练习

linux-ubuntu操作

Hadoop 2.x单节点部署学习。

Hadoop调用API对HDFS进行文件操作

简单游戏

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>