`
Kevin12
  • 浏览: 236054 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
数据库表设计的时候一定要注意: Mysql里面,tinyint默认是有符号的,取值范围是-128到127,unsigned属性就是将数字类型无符号化 unsigned tinyint才是0-255; SQL Server支持bignt, int, smallint, tinyint这四种int,前三种都是有符号的,而tinyint却是无符号的,取值范围是0-255; 所以,如果在这两个数据库直接迁移表结构的话,就要注意了。 ---------------------------- zerofill的使用: CREATE TABLE `test` (   `u_id` INT(11) NOT ...
Spark Streaming + Flume Integration Guide:http://spark.apache.org/docs/latest/streaming-flume-integration.html 本例子是做一个Spark Streaming 从flume中拉取数据的实验。 1.面配置flume 1.首先下载必须的jar:在上面的连接中有。并将其拷贝到/usr/local/flume/apache-flume-1.6.0-bin/lib目录下。 jar可以从官网上下载,也可以下载附件中的jar; 配置master1上的flume master1上修改配置文件root@ ...
上节http://kevin12.iteye.com/blog/2305946将flume的环境搭建好,并测试了flume的故障转移功能,这节编码实现Flume推送数据到Spark Streaming中。 下面的例子我只在master1上配置flume,worker1,worker2不进行配置了。 1.配置 master1上修改配置文件root@master1:/usr/local/flume/apache-flume-1.6.0-bin/conf/flume-conf.properties #agent1 name agent1.channels = c1 agent1.sources = ...
1.实现功能 配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。 2.集群规划(3台机器都需要安装) 3.软件准备 下载软件包:http://flume.apache.org/download.html 选择当前最新版本:apache-flume-1.6.0-bin.tar.gz 并将其上传到虚拟机的/usr/local/flume目录下,如果没有创建目录; 运行命令:root@master1:/usr/local/flume# tar -zxvf apache-flume-1.6.0-bin.tar.gz解压; 4.配置环境变量(3台机器环境变量配置一样) ...
1.实现功能 配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。 2.集群规划(3台机器都需要安装) 3.软件准备 下载软件包:http://flume.apache.org/download.html 选择当前最新版本:apache-flume-1.6.0-bin.tar.gz 并将其上传到虚拟机的/usr/local/flume目录下,如果没有创建目录; 运行命令:root@master1:/usr/local/flume# tar -zxvf apache-flume-1.6.0-bin.tar.gz解压; 4.配置环境变量(3台机器环境变量配置一样) 编辑.bashrc ...
测试Spark Streaming 统计单词的例子 1.准备 事先在hdfs上创建两个目录: 保存上传数据的目录:hdfs://master1:9000/library/SparkStreaming/data checkpoint的目录:hdfs://master1:9000/library/SparkStreaming/CheckPoint_data 2.源码 package com.imf.spark.SparkApps.sparkstreaming; import java.util.Arrays; import org.apache.spark.SparkConf; ...
窗口函数又叫着窗口分析函数,Spark 1.4版本SparkSQL支持窗口分析函数,主要用于分组函数;理解窗口函数,可以参考blog去了理解:http://www.cnblogs.com/CareySon/p/3411176.html 数据准备(用空格隔开) Spark 100 Hadoop 65 Spark 99 Hadoop 61 Spark 195 Hadoop 60 Spark 98 Hadoop 69 Spark 91 Hadoop 98 Spark 88 Hadoop 99 Spark 68 Hadoop 60 Spark 79 Hadoop 97 ...
简单说明     使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果返回一个Column对象,而DataFrame天生就是“A distributed collection of data organized into named columns”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性,例如说,我们在操作DataFrame的方法中可以随时调用内置函数进行业务需要的处理,这之于我们构建附件的业务逻辑而言是可以极大的减少不必须的时间消耗(基本上就是实际模型的映射),让我们聚焦在数据分析上,这对于提高工程师 ...
本次例子通过scala编程实现Spark SQL操作Hive数据库! Hadoop集群搭建:http://kevin12.iteye.com/blog/2273532 Spark集群搭建:http://kevin12.iteye.com/blog/2273532 数据准备 在/usr/local/sparkApps/SparkSQL2Hive/resources/目录下创建people.txt内容如下,name和age之间是"\t"分割 Michael    20 Andy    17 Justin    19 创建份数peopleScores.txt,内容如下,name和 ...
spark sql 官网:http://spark.apache.org/docs/latest/sql-programming-guide.html#starting-point-sqlcontext 首先要配置好hive,保存元数据到mysql中,参考:http://kevin12.iteye.com/blog/2280777 然后配置Spark SQL, 1.配置hive-site.xml 在master1上的/usr/local/spark/spark-1.6.0- ...
搜狗实验室:http://www.sogou.com/labs/resources.html 用户查询日志:http://www.sogou.com/labs/dl/q.html 将上面三种数据全部下载下来,解压后拷贝到虚拟机的/usr/local/hive/hivedata目录中; 注意:如果数据乱码的情况下,请先转成utf-8的格式,方便后面的练习; 数据格式为 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同 ...
在使用derby数据库时,遇到了很多错误,报错信息和解决方法如下,记录下来: 一,配置问题 Logging initialized using configuration in jar:file:/usr/local/hive/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties Exception in thread "main" java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.URISy ...
安装hive,这里使用mysql作为hive的metastore; Ubuntu 15.10虚拟机中安装mysql方法请看:http://kevin12.iteye.com/admin/blogs/2280771 Hadoop2.6.0集群安装:http://kevin12.iteye.com/blog/2273532 1.查看spark 1.6.0版本支持hive的版本从0.12.0~1.2.1,这里选择hive的1.2.1版本。 2.去官网下载apache-hive-1.2.1-bin.tar.gz,官网地址:http://hive.apache.org/downloads.html ...
开启远程访问端口 首先查看端口是否打开 root@master1:netstat -an|grep 3306 显示结果:tcp 0 0 127.0.0.1:3306 0.0.0.0:* LISTEN 上面说明mysql的3306端口只是监听本地的连接,并没有开启远程端口服务,阻碍外部IP对该数据库的访问。 打开mysql配置文件vim /etc/mysql/mysql.conf.d/mysqld.cnf注释掉bind-address           = 127.0.0.1 注:我的ubuntu是15.10的,mysql是5.6版本在/etc/mysql/mysql.conf.d/mysql ...
最近基于hadoop-2.6.0安装apache-hive-1.2.1-bin,需要安装mysql数据库(Hive默认使用的derby)。 简单说明:Hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。这套映射工具称之为metastore,一般存放在derby、mysql中。 derby不能被多个客户端共同使用,它使用独占式,客户端运行在哪个目录中,就会在那个目录中创建derby.log和metastore_db 两个文件。所有要用mysql数据库来存储,也可以用其他数据库比如Oracle存储。 下面介绍一 ...
Global site tag (gtag.js) - Google Analytics