`
文章列表
1 wordcount 2 倒排序 3 自定义分区(不同规则输出到不同的文件) 4 自定义文件输出 5 统计文件流      1 自定义输出类    package com.wzt.mapreduce.custom; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org. ...

Sqoop

  sqoop的使用 ----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具 ----实质就是将导入导出命令转换成mapreduce程序来实现   sqoop安装:安装在一台节点上就可以了。   1.上传sqoop   2.安装和配置 ----修改配置文件  sqoop-env.sh(没有就创建一个) #Set path to where bin/hadoop is available export HADOOP_COMMON_HOME=/home/hadoop/app/hadoop-2.4.1   #Set path to where ...
  集群安装 1、解压 2、修改server.properties broker.id=1 zookeeper.connect=weekend05:2181,weekend06:2181,weekend07:2181   3、将zookeeper集群启动   4、在每一台节点上启动broker 启动的时候 如果虚拟机内存不足需要添加在kafka-server-start.sh 中:export KAFKA_HEAP_OPTS="-Xmx256M -Xms128M"   bin/kafka-server-start.sh config/server. ...
  storm 应用场景:事实的数据流处理  大数据系列:   1、安装一个zookeeper集群   2、上传storm的安装包,解压   3、修改配置文件storm.yaml   #所使用的zookeeper集群主机 storm.zookeeper.servers:      - "weekend05"      - "weekend06"      - "weekend07"   #nimbus所在的主机名 nimbus.host: "weekend05" #启动进程数 ...
Hbase 的Java API 操作    package com.wzt.dao; //package hbaseExec2; /* * 创建一个students表,并进行相关操作 */ import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.a ...
    1.上传hbase安装包   2.解压   3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下   3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55 //告诉hbase使用外部的zk export HBASE_MANAGES_ZK=false   vim hbase-site.xml <configuration> <!-- 指定hbase在HDFS ...
  1 解压到目录 2 配置文件修改元数据保存到mysql  3 创建表,就是在hdfs中创建一个文件夹,load数据就是将数据文件拷贝到hdfs表对应的目录下面。   4 创建表(默认为表类型为MANAGED_TABLE,数据是在表的目录下面):   数据就是文件,它可以一次插入一个文件数据,但不能插入一条数据。 CREATE TABLE page_vie (viewTime int ,useid BIGINT, page_url STRING,referrer_url STRING, ip STRING COMMENT 'IP Address of the User') ...
  1 拷贝HA中core.xml和hdfs.xml文件到工程src下 2 java代码,其中ns1是nameservice名称 public class HDFSHATest { public static void main(String[] args) throws Exception { Configuration conf = new Configuration() ; FileSystem fs = FileSystem.get( new URI("hdfs://ns1"),conf,"hadoop") ; ...
  集群中启动hadoop过程: ./zkServer.sh start 启动所有的zookeeper ,机器中会有QuorumPeerMain进程  ./start-dfs.sh  启动dfs会启动所有的namenode 和datanode,zkfs  ./start-yarn.sh 启动yarn ,会启动ResourceManager和nodemanager ./yarn-daemon.sh  start resourcemanager 单独启动另一台resourcemanager      1.修改Linux主机名(一定要修改,resourceManager会根据主机名 ...
  1 下载zookeeper  2 解压到安装目录  3 拷贝conf下zoo_sample.cfg配置文件为zoo.cfg  4 tickTime=2000    # The number of ticks that the initial # synchronization phase can take initLimit=10 # The number of ticks that can pass between # sending a request and getting an acknowledgement syncLimit=5 # the dir ...
      一、 本地环境运行:(也可以本地程序调用hdfs的数据,但必须指定运行的用户,或者将分布式数据权限改成所有人都可以读写,否则权限异常elipse中可以设置-DHADOOP_USER_NAME=hadoop )  程序不在集群中运行。(数据可以是本地地址 也可以是hdfs地址(hdfs://cloud:9000/wc/wordcount/input)) 1 设置环境     HADOOP_HOME E:\source_src\hadoop-2.5.2     path中添加 ;%HADOOP_HOME%\bin;  2 winutils工具包添加到hadoop的bi ...

linux-ubuntu操作

ubuntu一些命令文件记载 网络设置: sudo vi /etc/network/interfaces  主机名称: /etc/hostname  
    1 环境 hadoop-2.5.2  ubuntu 64位服务器  jdk1.7.0_72(tar文件,直接解压到usr/local ,配置环境变量) 2 所需要的软件,不同linux安装软件方式可能不一样 :   $ sudo apt-get install ssh   $ sudo apt-get install rsync 3 下载hadoop:http://www.apache.org/dyn/closer.cgi/hadoop/common/ 4 解压hadoop 到要安装的目录 5 编辑hadoop所需要环境 etc/hadoop/hadoop-env.s ...
  通过java代码对HDFS进行操作:创建文件文件,读取文件,删除文件,文件列表,创建目录,当地文件上传到hdfs,获取所有节点信息,文件写入数据。   import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileStatus; impo ...

简单游戏

   1 酒桌10秒念出所有人名称  2 抢凳子   3 踩气球   4 瞎子穿拖鞋  5 双人顶气球  6 蹲起游戏  
Global site tag (gtag.js) - Google Analytics