- 浏览: 235343 次
- 性别:
- 来自: 上海
最新评论
-
lwb314:
你的这个是创建的临时的hive表,数据也是通过文件录入进去的, ...
Spark SQL操作Hive数据库 -
yixiaoqi2010:
你好 我的提交上去 总是报错,找不到hive表,可能是哪里 ...
Spark SQL操作Hive数据库 -
bo_hai:
target jvm版本也要选择正确。不能选择太高。2.10对 ...
eclipse开发spark程序配置本地运行
文章列表
数据库表设计的时候一定要注意:
Mysql里面,tinyint默认是有符号的,取值范围是-128到127,unsigned属性就是将数字类型无符号化 unsigned tinyint才是0-255;
SQL Server支持bignt, int, smallint, tinyint这四种int,前三种都是有符号的,而tinyint却是无符号的,取值范围是0-255;
所以,如果在这两个数据库直接迁移表结构的话,就要注意了。
----------------------------
zerofill的使用:
CREATE TABLE `test` (
`u_id` INT(11) NOT ...
Spark Streaming + Flume Integration Guide:http://spark.apache.org/docs/latest/streaming-flume-integration.html
本例子是做一个Spark Streaming 从flume中拉取数据的实验。
1.面配置flume
1.首先下载必须的jar:在上面的连接中有。并将其拷贝到/usr/local/flume/apache-flume-1.6.0-bin/lib目录下。
jar可以从官网上下载,也可以下载附件中的jar;
配置master1上的flume
master1上修改配置文件root@ ...
上节http://kevin12.iteye.com/blog/2305946将flume的环境搭建好,并测试了flume的故障转移功能,这节编码实现Flume推送数据到Spark Streaming中。
下面的例子我只在master1上配置flume,worker1,worker2不进行配置了。
1.配置
master1上修改配置文件root@master1:/usr/local/flume/apache-flume-1.6.0-bin/conf/flume-conf.properties
#agent1 name
agent1.channels = c1
agent1.sources = ...
1.实现功能
配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。
2.集群规划(3台机器都需要安装)
3.软件准备
下载软件包:http://flume.apache.org/download.html 选择当前最新版本:apache-flume-1.6.0-bin.tar.gz
并将其上传到虚拟机的/usr/local/flume目录下,如果没有创建目录;
运行命令:root@master1:/usr/local/flume# tar -zxvf apache-flume-1.6.0-bin.tar.gz解压;
4.配置环境变量(3台机器环境变量配置一样)
...
1.实现功能
配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。
2.集群规划(3台机器都需要安装)
3.软件准备
下载软件包:http://flume.apache.org/download.html 选择当前最新版本:apache-flume-1.6.0-bin.tar.gz
并将其上传到虚拟机的/usr/local/flume目录下,如果没有创建目录;
运行命令:root@master1:/usr/local/flume# tar -zxvf apache-flume-1.6.0-bin.tar.gz解压;
4.配置环境变量(3台机器环境变量配置一样)
编辑.bashrc ...
测试Spark Streaming 统计单词的例子
1.准备
事先在hdfs上创建两个目录:
保存上传数据的目录:hdfs://master1:9000/library/SparkStreaming/data
checkpoint的目录:hdfs://master1:9000/library/SparkStreaming/CheckPoint_data
2.源码
package com.imf.spark.SparkApps.sparkstreaming;
import java.util.Arrays;
import org.apache.spark.SparkConf;
...
窗口函数又叫着窗口分析函数,Spark 1.4版本SparkSQL支持窗口分析函数,主要用于分组函数;理解窗口函数,可以参考blog去了理解:http://www.cnblogs.com/CareySon/p/3411176.html
数据准备(用空格隔开)
Spark 100
Hadoop 65
Spark 99
Hadoop 61
Spark 195
Hadoop 60
Spark 98
Hadoop 69
Spark 91
Hadoop 98
Spark 88
Hadoop 99
Spark 68
Hadoop 60
Spark 79
Hadoop 97
...
简单说明
使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果返回一个Column对象,而DataFrame天生就是“A distributed collection of data organized into named columns”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性,例如说,我们在操作DataFrame的方法中可以随时调用内置函数进行业务需要的处理,这之于我们构建附件的业务逻辑而言是可以极大的减少不必须的时间消耗(基本上就是实际模型的映射),让我们聚焦在数据分析上,这对于提高工程师 ...
本次例子通过scala编程实现Spark SQL操作Hive数据库!
Hadoop集群搭建:http://kevin12.iteye.com/blog/2273532
Spark集群搭建:http://kevin12.iteye.com/blog/2273532
数据准备
在/usr/local/sparkApps/SparkSQL2Hive/resources/目录下创建people.txt内容如下,name和age之间是"\t"分割
Michael 20
Andy 17
Justin 19
创建份数peopleScores.txt,内容如下,name和 ...
spark sql 官网:http://spark.apache.org/docs/latest/sql-programming-guide.html#starting-point-sqlcontext
首先要配置好hive,保存元数据到mysql中,参考:http://kevin12.iteye.com/blog/2280777
然后配置Spark SQL,
1.配置hive-site.xml
在master1上的/usr/local/spark/spark-1.6.0- ...
搜狗实验室:http://www.sogou.com/labs/resources.html
用户查询日志:http://www.sogou.com/labs/dl/q.html
将上面三种数据全部下载下来,解压后拷贝到虚拟机的/usr/local/hive/hivedata目录中;
注意:如果数据乱码的情况下,请先转成utf-8的格式,方便后面的练习;
数据格式为
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同 ...
在使用derby数据库时,遇到了很多错误,报错信息和解决方法如下,记录下来:
一,配置问题
Logging initialized using configuration in jar:file:/usr/local/hive/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties
Exception in thread "main" java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.URISy ...
安装hive,这里使用mysql作为hive的metastore;
Ubuntu 15.10虚拟机中安装mysql方法请看:http://kevin12.iteye.com/admin/blogs/2280771
Hadoop2.6.0集群安装:http://kevin12.iteye.com/blog/2273532
1.查看spark 1.6.0版本支持hive的版本从0.12.0~1.2.1,这里选择hive的1.2.1版本。
2.去官网下载apache-hive-1.2.1-bin.tar.gz,官网地址:http://hive.apache.org/downloads.html ...
开启远程访问端口
首先查看端口是否打开 root@master1:netstat -an|grep 3306
显示结果:tcp 0 0 127.0.0.1:3306 0.0.0.0:* LISTEN
上面说明mysql的3306端口只是监听本地的连接,并没有开启远程端口服务,阻碍外部IP对该数据库的访问。
打开mysql配置文件vim /etc/mysql/mysql.conf.d/mysqld.cnf注释掉bind-address = 127.0.0.1
注:我的ubuntu是15.10的,mysql是5.6版本在/etc/mysql/mysql.conf.d/mysql ...
最近基于hadoop-2.6.0安装apache-hive-1.2.1-bin,需要安装mysql数据库(Hive默认使用的derby)。
简单说明:Hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。这套映射工具称之为metastore,一般存放在derby、mysql中。
derby不能被多个客户端共同使用,它使用独占式,客户端运行在哪个目录中,就会在那个目录中创建derby.log和metastore_db 两个文件。所有要用mysql数据库来存储,也可以用其他数据库比如Oracle存储。
下面介绍一 ...