- 浏览: 235703 次
- 性别:
- 来自: 上海
最新评论
-
lwb314:
你的这个是创建的临时的hive表,数据也是通过文件录入进去的, ...
Spark SQL操作Hive数据库 -
yixiaoqi2010:
你好 我的提交上去 总是报错,找不到hive表,可能是哪里 ...
Spark SQL操作Hive数据库 -
bo_hai:
target jvm版本也要选择正确。不能选择太高。2.10对 ...
eclipse开发spark程序配置本地运行
文章列表
Hadoop2.6.0集群搭建完毕后,下面介绍一下eclipse是如何开发hadoop程序(即MapReduce程序)的。
1.jdk安装hadoop集群的搭建,不再详述,参考http://kevin12.iteye.com/blog/2273556;
下面运行下hadoop自带的wordcount例子:
2.先将hadoop-2.6.0目录下面的README.txt和LICENSE.txt文件put到集群的/library/hadoop/data目录下面,如果目录不存在先创建;
root@master1:/usr/local/hadoop/hadoop-2.6.0# hdfs dfs -m ...
hadoop 的MapReduce是基于数据集的,位置感知,容错 负载均衡
基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备;
基于数据集的操作不适应的场景:
1,不适合于大量的迭代
2,交互式查询
重点是: ...
1.在将spark内核架构前,先了解一下Hadoop的MR,Hadoop的MR分为Map和Reduce阶段,在Map阶段产生的中间结果要写回到磁盘,它和Reduce之间还有Shuffle操作,这个操作需要从网络节点进行数据拷贝,大量时间耗费在网络传输上,网络传输导致Hadoop的MR慢的原因之一,所以在很多情况下只适合离线计算。
2.Spark的RDD(Resilient Distributed Dataset 弹性分布式数据集)
RDD是Spark对数据和计算的抽象,它表示已被分片的,不可变的并能够被并行操作的数据集合。对RDD操作分为两种:
Transformation:通过转换从一个或多个 ...
spark集群的HA图:
搭建spark的HA需要安装zookeeper集群,下面简单说明一下zookeeper集群的安装方法;
我是将master1,worker1,worker2上安装zookeeper集群;
下面是先在master1上安装zookeeper,然后将配置好的拷贝到worker1和worker2上。
软件版本:zookeeper-3.4.6
1.解压并配置zookeeper环境变量
在虚拟机中的位置:/usr/local/zookeeper/zookeeper-3.4.6
环境变量配置:
export JAVA_HOME=/usr/local/jdk/jdk1.8.0_6 ...
以数据流动的视角解释一下wordcount运行的原理
package com.imf.spark.wordcount
import org.apache.spark.{SparkContext, SparkConf}
/**
* Created by vivi on 2016/1/27.
*/
object WordCount {
def main(args: Array[String]) {
/**
* 1.创建Spark的配置对象SparkConf,设置Spark程序的运行时的配置信息,
* 例如:通过setMaster来设置 ...
这篇bolg讲一下,IDE开发的spark程序如何提交到集群上运行。
首先保证你的集群是运行成功的,集群搭建可以参考http://kevin12.iteye.com/blog/2273556
开发集群测试的spark wordcount程序;
1.hdfs数据准备.
先将README.md文件上传到hdfs上的/library/wordcount/input2目录
root@master1:/usr/local/hadoop/hadoop-2.6.0/sbin# hdfs dfs -mkdir /library/wordcount/input2
root@master1:/usr/local/ ...
今天简单讲一下在local模式下用eclipse开发一个简单的spark应用程序,并在本地运行测试。
1.下载最新版的scala for eclipse版本,选择windows 64位,下载网址:http://scala-ide.org/download/sdk.html
下载好后解压到D盘,打开并选择工作空间。
然后创建一个测试项目ScalaDev,右击项目选择Properties,在对话框中选择Scala Compiler,在右面页签中勾选Use Project Settings和Scala Installation点击ok,保存配置。
2.添加spark1.6.0的jar文件 ...
本文是基于hadoop2.6.0的分布式环境搭建spark1.6.0的分布式集群。
hadoop2.6.0分布式集群可参考:http://kevin12.iteye.com/blog/2273532
1.解压spark的包,tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz,并将其移到/usr/local/spark目录下面;
在~/.bashrc文件中配置spark的环境变量,保存并退出,执行source ~/.bashrc使之生效;
export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60
export JRE_HOME=${J ...
1.集群环境的安装
1.1工具软件版本说明(软件尽量去官网下载):
VMware Workstation :10.0.0 build-1295980
Ubuntn:Ubuntn15.10
JDK:jdk-8u60-linux-x64.tar.gz
Hadoop:hadoop-2.6.0.tar.gz
SecureCRT:Version 6.2.3 (build 313)
WinSCP:5.1.6(build 3394)
VM先按照ubuntu虚拟机步骤网上搜下,自行安装。
Ubuntu15.10设置用root账号登录:http://kevin12.iteye.com/blog/2271687 ...
1.先查看本机的VMnet8分配的网络如下:
2.虚拟机设置选中NAT模式:
3.查看ip地址可用范围:
打开VMWare,点击编辑(Edit)>虚拟网络编辑器(Virtual Network Editor)进入虚拟网卡参数设置页面,如下图所示:
4.点击DHCP Settings,查看ip地址可用范围:
192.168.112.128 - 192.168.112.254
5.虚拟机静态ip设置:
查看虚拟机络状态信息(注:原先的IP地址是192.168.112.129)
6.配置虚拟机静态ip信息:打开网络编辑页面,添加一个网络连接
(1)设置方法为:手动;
(2)IP地址:1 ...
1.打开终端
2.输入sudo vi /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf
或输入sudo vim /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf(vim需安装)
[Seat:*]
user-session=ubuntu
greeter-show-manual-login=true
3.在弹出的编辑框里输入:greeter-show-manual-login=true 保存关闭。
4.给root设置密码,在中端中输入:sudo passwd root。
5.关机重启在多出的登录框里输入r ...
在VMware虚拟机下的linux无法全屏的问题:
在VMware虚拟机下的linux无法全屏的问题:
1.点击“view”——然后将Autofit window这个选项勾选。(一般版本高的VMware虚拟机都会默认该设置) 这个一定不要忘了,否则就不能全屏。
2.该步骤是关键,具体的操作为:点击“VM”——选中“install vmware-tools”这个选项后会在虚拟机中打开一个目录,即VMwareTools-9.6.0-1294478.tar.gz 。
3.用命令tar -zxvf VMwareTools-9.6.0-1294478.tar.gz 解压该tar包到/tmp目录下,并进入 ...
用eclipse 对项目进行Maven>Update Project...是报如下错误:
Could not set the project description for 'hotelseqbid.ws' because the project description file (.project) is out of sync with the file system.
先按这里的解决http://stackoverflow.com/questions/30747839/project-description-file-project-is-out-of-sync-with-the- ...
ASCII码值表
来源:http://blog.csdn.net/lxpbs8851/article/details/11525501
Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex
-----------------------------------------------------------------------------------
(nul) 0 0000 0x00 | (sp) 32 0040 0x20 | @ 64 0100 0x40 ...
1.确保你的虚拟机是联网状态,如果不是将虚拟机网络连接方式改成桥接模式,虚拟机网卡改成自动获取ip的方式。下面的操作都是在/usr/local目录操作的。
2.下载ant
2.1.你可以直接从http://ant.apache.org/bindownload.cgi 中下载最新版本的apache-ant-1.9.3-bin.tar.gz ,然后将下载好的 apache-ant-1.9.3-bin.tar.gz用工具WinSCP工具复制到linux下。
2.2.也可以在linux命令行中运行命令wget mirrors.hust.edu.cn/apache//ant/binari ...