Mysql tinyint和Sqlserver tinyint的区别，zerofill的使用

博客分类：

MySQL问题及学习

数据库表设计的时候一定要注意： Mysql里面，tinyint默认是有符号的，取值范围是-128到127，unsigned属性就是将数字类型无符号化 unsigned tinyint才是0-255； SQL Server支持bignt, int, smallint, tinyint这四种int，前三种都是有符号的，而tinyint却是无符号的，取值范围是0-255；所以，如果在这两个数据库直接迁移表结构的话，就要注意了。 ---------------------------- zerofill的使用： CREATE TABLE `test` ( `u_id` INT(11) NOT ...

2016-11-05 22:05
浏览 1324
评论(0)
分类:数据库

SparkStreaming pull data from Flume

博客分类：

Spark
Flume

hadoop spark flume

Spark Streaming + Flume Integration Guide:http://spark.apache.org/docs/latest/streaming-flume-integration.html 本例子是做一个Spark Streaming 从flume中拉取数据的实验。 1.面配置flume 1.首先下载必须的jar：在上面的连接中有。并将其拷贝到/usr/local/flume/apache-flume-1.6.0-bin/lib目录下。 jar可以从官网上下载，也可以下载附件中的jar; 配置master1上的flume master1上修改配置文件root@ ...

2016-06-19 17:29
浏览 1252
评论(0)
分类:开源软件

Flume push数据到SparkStreaming

博客分类：

Spark
Flume

Spark Flume Hadoop

上节http://kevin12.iteye.com/blog/2305946将flume的环境搭建好，并测试了flume的故障转移功能，这节编码实现Flume推送数据到Spark Streaming中。下面的例子我只在master1上配置flume，worker1,worker2不进行配置了。 1.配置 master1上修改配置文件root@master1:/usr/local/flume/apache-flume-1.6.0-bin/conf/flume-conf.properties #agent1 name agent1.channels = c1 agent1.sources = ...

2016-06-19 15:16
浏览 1961
评论(0)
分类:开源软件

Flume的安装和测试故障转移

博客分类：

Flume

hadoop flume

1.实现功能配置Flume监控本地文件夹变化，将变化的文件上传到hdfs上。 2.集群规划（3台机器都需要安装） 3.软件准备下载软件包：http://flume.apache.org/download.html 选择当前最新版本：apache-flume-1.6.0-bin.tar.gz 并将其上传到虚拟机的/usr/local/flume目录下，如果没有创建目录；运行命令：root@master1:/usr/local/flume# tar -zxvf apache-flume-1.6.0-bin.tar.gz解压； 4.配置环境变量（3台机器环境变量配置一样） ...

2016-06-19 14:56
浏览 3415
评论(0)
分类:开源软件

Flume的安装和测试故障转移

博客分类：

Flume

Hadoop Flume

1.实现功能配置Flume监控本地文件夹变化，将变化的文件上传到hdfs上。 2.集群规划（3台机器都需要安装） 3.软件准备下载软件包：http://flume.apache.org/download.html 选择当前最新版本：apache-flume-1.6.0-bin.tar.gz 并将其上传到虚拟机的/usr/local/flume目录下，如果没有创建目录；运行命令：root@master1:/usr/local/flume# tar -zxvf apache-flume-1.6.0-bin.tar.gz解压； 4.配置环境变量（3台机器环境变量配置一样）编辑.bashrc ...

2016-06-19 12:48
浏览 1754
评论(0)
分类:操作系统

Spark Streaming 统计单词的例子

博客分类：

Spark
Hadoop

Spark

测试Spark Streaming 统计单词的例子 1.准备事先在hdfs上创建两个目录：保存上传数据的目录：hdfs://master1:9000/library/SparkStreaming/data checkpoint的目录：hdfs://master1:9000/library/SparkStreaming/CheckPoint_data 2.源码 package com.imf.spark.SparkApps.sparkstreaming; import java.util.Arrays; import org.apache.spark.SparkConf; ...

2016-06-19 12:29
浏览 3724
评论(0)
分类:开源软件

Spark SQL窗口函数

博客分类：

Spark

spark

窗口函数又叫着窗口分析函数，Spark 1.4版本SparkSQL支持窗口分析函数，主要用于分组函数；理解窗口函数，可以参考blog去了理解：http://www.cnblogs.com/CareySon/p/3411176.html 数据准备（用空格隔开） Spark 100 Hadoop 65 Spark 99 Hadoop 61 Spark 195 Hadoop 60 Spark 98 Hadoop 69 Spark 91 Hadoop 98 Spark 88 Hadoop 99 Spark 68 Hadoop 60 Spark 79 Hadoop 97 ...

2016-04-22 07:18
浏览 2582
评论(0)
分类:开源软件

Spark SQL内置函数应用

博客分类：

Spark
Hive

Spark scala hive

简单说明使用Spark SQL中的内置函数对数据进行分析，Spark SQL API不同的是，DataFrame中的内置函数操作的结果返回一个Column对象，而DataFrame天生就是“A distributed collection of data organized into named columns”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性，例如说，我们在操作DataFrame的方法中可以随时调用内置函数进行业务需要的处理，这之于我们构建附件的业务逻辑而言是可以极大的减少不必须的时间消耗（基本上就是实际模型的映射），让我们聚焦在数据分析上，这对于提高工程师 ...

2016-04-22 07:00
浏览 8691
评论(0)
分类:开源软件

Spark SQL操作Hive数据库

博客分类：

Spark
Hive
Hadoop

spark scala hadoop Hive

本次例子通过scala编程实现Spark SQL操作Hive数据库！ Hadoop集群搭建：http://kevin12.iteye.com/blog/2273532 Spark集群搭建：http://kevin12.iteye.com/blog/2273532 数据准备在/usr/local/sparkApps/SparkSQL2Hive/resources/目录下创建people.txt内容如下，name和age之间是"\t"分割 Michael 20 Andy 17 Justin 19 创建份数peopleScores.txt,内容如下，name和 ...

2016-04-13 22:37
浏览 17659
评论(2)
分类:开源软件

Spark SQL on hive配置和实战

博客分类：

Spark
Hive
Hadoop

spark hive

spark sql 官网：http://spark.apache.org/docs/latest/sql-programming-guide.html#starting-point-sqlcontext 首先要配置好hive，保存元数据到mysql中，参考：http://kevin12.iteye.com/blog/2280777 然后配置Spark SQL, 1.配置hive-site.xml 在master1上的/usr/local/spark/spark-1.6.0- ...

2016-03-26 18:40
浏览 5617
评论(0)
分类:开源软件

Hive分析搜索引擎的数据（搜狗实验室数据）

博客分类：

Hive

Hive Hadoop

搜狗实验室：http://www.sogou.com/labs/resources.html 用户查询日志：http://www.sogou.com/labs/dl/q.html 将上面三种数据全部下载下来，解压后拷贝到虚拟机的/usr/local/hive/hivedata目录中；注意：如果数据乱码的情况下，请先转成utf-8的格式，方便后面的练习；数据格式为访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同 ...

2016-03-13 12:48
浏览 2122
评论(0)
分类:开源软件

Hive使用默认数据库derby报错及解决方法

博客分类：

Hive

hive derby hadoop

在使用derby数据库时，遇到了很多错误，报错信息和解决方法如下，记录下来：一,配置问题 Logging initialized using configuration in jar:file:/usr/local/hive/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties Exception in thread "main" java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.URISy ...

2016-03-05 21:19
浏览 3194
评论(0)
分类:开源软件

Hive1.2.1安装和使用(基于Hadoop2.6.0)

博客分类：

Hive

hive hadoop mysql 虚拟机

安装hive，这里使用mysql作为hive的metastore; Ubuntu 15.10虚拟机中安装mysql方法请看：http://kevin12.iteye.com/admin/blogs/2280771 Hadoop2.6.0集群安装：http://kevin12.iteye.com/blog/2273532 1.查看spark 1.6.0版本支持hive的版本从0.12.0~1.2.1,这里选择hive的1.2.1版本。 2.去官网下载apache-hive-1.2.1-bin.tar.gz，官网地址：http://hive.apache.org/downloads.html ...

2016-03-05 20:22
浏览 8911
评论(0)
分类:开源软件

ubuntu 15.10中msyql开启远程端口服务

博客分类：

MySQL问题及学习

mysql liunx ubuntu

开启远程访问端口首先查看端口是否打开 root@master1:netstat -an|grep 3306 显示结果：tcp 0 0 127.0.0.1:3306 0.0.0.0:* LISTEN 上面说明mysql的3306端口只是监听本地的连接，并没有开启远程端口服务，阻碍外部IP对该数据库的访问。打开mysql配置文件vim /etc/mysql/mysql.conf.d/mysqld.cnf注释掉bind-address = 127.0.0.1 注：我的ubuntu是15.10的，mysql是5.6版本在/etc/mysql/mysql.conf.d/mysql ...

2016-03-05 14:18
浏览 1097
评论(0)
分类:数据库

ubuntu 15.10安装mysql数据库开启远程端口

博客分类：

VMware

ubuntu mysql

最近基于hadoop-2.6.0安装apache-hive-1.2.1-bin，需要安装mysql数据库（Hive默认使用的derby）。简单说明：Hive有一套映射工具，可以把SQL转换为MapReduce中的job，可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。这套映射工具称之为metastore，一般存放在derby、mysql中。 derby不能被多个客户端共同使用，它使用独占式，客户端运行在哪个目录中，就会在那个目录中创建derby.log和metastore_db 两个文件。所有要用mysql数据库来存储，也可以用其他数据库比如Oracle存储。下面介绍一 ...

2016-03-05 14:11
浏览 1878
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Mysql tinyint和Sqlserver tinyint的区别，zerofill的使用

SparkStreaming pull data from Flume

Flume push数据到SparkStreaming

Flume的安装和测试故障转移

Flume的安装和测试故障转移

Spark Streaming 统计单词的例子

Spark SQL窗口函数

Spark SQL内置函数应用

Spark SQL操作Hive数据库

Spark SQL on hive配置和实战

Hive分析搜索引擎的数据（搜狗实验室数据）

Hive使用默认数据库derby报错及解决方法

Hive1.2.1安装和使用(基于Hadoop2.6.0)

ubuntu 15.10中msyql开启远程端口服务

ubuntu 15.10安装mysql数据库开启远程端口

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>