hdfs HA 实验

博客分类：

hadoop

hdfs HA 实验 hdfs 第一次机器准备 ,机器配合 hostname,ip 作为namenode 的机器到其他的机器要有 ssh 权限 1、 start zk cluster 主： 2、 ./hdfs journalnode 这个会启动所有配置的 journalnode ,执行机要有到其他机器的 ssh 的权限用于存放 namenode 的内容 3、hdfs zkfc -formatZK 4、hdfs namenode -format 主 start main namenode ser ...

2016-11-06 16:35
浏览 576
评论(0)
分类:互联网

集群中统一命令执行和文件拷贝

博客分类：

hadoop

集群中统一命令执行和文件拷贝

filecopy #!/bin/bash if [ $# -lt 2 ]; then echo "error.. need args" exit 1 fi host=$1 filefullpath=$2 var=${host//,/ } #这里是将var中的,替换为空格 for element in $var do echo scp $filefullpath 192.168.0.$element://$filefullpath scp $filefullpath 192.168.0.$element: ...

2016-11-05 13:06
浏览 709
评论(0)
分类:互联网

ssh 免密码不工作的问题

博客分类：

hadoop

ssh 免密码不工作的问题

ssh 免密码不工作的问题别人不能自动登录进来，先检查，自己能不能登录自己一般可能是文件权限的问题 64 ssh-keygen -t rsa 65 ls 66 cat authorized_keys 67 ssh-keygen -t rsa -P '' -f id_rsa 68 cat id_rsa.pub >> authorized_keys 69 ssh localhost 70 chown admin: /home/admin/.ssh 71 chown admin: /home/admin ...

2016-11-05 12:43
浏览 453
评论(0)
分类:操作系统

docker 用 pipework config ip 建测试集群

博客分类：

docker

docker config ip 建测试集群

docker config ip with pipework 想搭个实验集群，又没有机器， vm 太重，用了 docker .需要给机器加入固定ip docker run -t -i --net=none --name m1 centos:v2 pipework docker0 m1 172.17.2.1/16@255.255.0.0 如果： docker: Error response from daemon: Conflict. The name "/m1" is already in use by container cd6594028 ...

2016-11-02 23:07
浏览 593
评论(0)
分类:操作系统

graph 属性和方法列表，记录下来学习

博客分类：

spark 学习

graph 属性和方法列表记录下来学习

/** Summary of the functionality in the property graph */ class Graph[VD, ED] { // Information about the Graph =================================================================== val numEdges: Long val numVertices: Long val inDegrees: VertexRDD[Int] val outDegrees: VertexRDD[Int] val degr ...

2016-10-26 22:29
浏览 640
评论(0)
分类:互联网

spark rdd dataset sql udf udaf

博客分类：

spark 学习

spark rdd dataset udf udaf

以后为了操作的便利性，把逻辑都包装成 udf ,udaf . 写一个包装接口，对一份数据的操作，直接在 repl 给 hdfs 加上 meta desc 在 repl 直接写 sql . 出来的结果，直接拿 save . 可以积累业务逻辑。重用 import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunctio ...

2016-10-22 11:58
浏览 805
评论(0)
分类:互联网

数据挖掘中分类，属性变量如何变 double OHE

博客分类：

spark 学习

数据挖掘中分类属性变量如何变 double OHE

数据挖掘中，基本所有算法需求数据都是二维 double 1 如果是二变量一个变 0 一个变 1 2 其他的以 index: dimentionvalue 来编码，每个维度中，每种value用用一个维度表示 //将train_cat_rdd中的(特征ID：特征)去重，并进行编号 var oheMap = train_cat_rdd.flatMap(x => x).distinct().zipWithIndex().collectAsMap() //oheMap: scala.collection.Map ...

2016-09-06 15:40
浏览 679
评论(0)
分类:互联网

spark streaming 如何在 start 之后，修改闭包对象。计算更新

博客分类：

spark 学习

spark streaming 如何在 start 之后修改闭包对象。计算更新

spark streaming 在 start 之后 ,我想改变计算规则，系统报告不能修改. 异常如下 Exception in thread "Thread-14" java.lang.IllegalStateException: Adding new inputs, transformations, and output operations after starting a context is not supported at org.a ...

2016-09-06 15:30
浏览 2756
评论(0)
分类:互联网

ggplot2 setup

博客分类：

R

also installing the dependencies ‘stringi’, ‘magrittr’, ‘colorspace’, ‘Rcpp’, ‘stringr’, ‘RColorBrewer’, ‘dichromat’, ‘munsell’, ‘labeling’, ‘digest’, ‘gtable’, ‘plyr’, ‘reshape2’, ‘scales’

2016-08-14 11:44
浏览 349
评论(0)
分类:非技术

install R

博客分类：

R

install R

发现 R 3.0.2 不支持 ggplot2 , ubuntu 默认的有时 3.0.2 , 只能下载 src 编译参考网址：http://blog.itpub.net/21711990/viewspace-1114418/ http://blog.sina.com.cn/s/blog_8353c4e90102vp1j.html

2016-08-14 08:39
浏览 537
评论(0)
分类:开源软件

dataframe 和 dataset api

博客分类：

spark 学习

dataframe 和 dataset api

dataframe scala> teenagersDF res14: org.apache.spark.sql.DataFrame = [name: string, age: bigint] scala> teenagersDF. != flatMap repartition ## foreach rollup + ...

2016-08-07 18:12
浏览 798
评论(0)
分类:开源软件

spark rdd 和 DF 转换

博客分类：

spark 学习

spark rdd 和 DF 转换

RDD -》 DF 有两种方式一、一、Inferring the Schema Using Reflection 将 RDD[t] 转为一个 object ,然后 to df val peopleDF = spark.sparkContext .textFile("examples/src/main/resources/people.txt") .map(_.split(",")) .map(attributes => Person(attributes(0), attributes ...

2016-08-07 18:04
浏览 10999
评论(0)
分类:开源软件

Spark 都干啥

博客分类：

spark 学习

1. 腾讯广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势，围绕“数据+算法+系统”这套技术方案，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成� ...

2014-09-21 21:02
浏览 772
评论(0)
分类:互联网

spark 不同执行方式的运行期分析

博客分类：

spark 学习

结论我还是学学 yarn-server 单个作业 yarn-clinet 的吧交互之前的mr 模型 1\ client 会执行inputformat 的getsplit ,write 成文件，然后提交job 包含资源（jar ,conf,..） 2\ yarn 的RM 接手，分配AM 3\ AM 接受，找RM 要资源找NODENAMAGER 要 container 搞起。。。。。 spark 1.1 版本中都是怎么样的 submit -->分析rdd -> 生成DAG--》 master 上运行-- ...

2014-09-20 12:32
浏览 2124
评论(0)
分类:互联网

apark 运行和调度

博客分类：

spark 学习

拷贝文档备用理解图2显示了Spark程序的运行场景。它由客户端启动，分两个阶段：第一阶段记录变换算子序列、增量构建DAG图；第二阶段由行动算子触发，DAGScheduler把DAG图转化为作业及其任务集。Spark支持本地单节点运行（开发调试有用）或集群运行。对于后者，客户端运行于 master节点上，通过Cluster manager把划分好分区的任务集发送到集群的worker/slave节点上执行。 Spark 传统上与Mesos“焦不离孟”，也可支持Amazon EC2和YARN。底层任务调度器的基类是个trait，它的不同实现可以混入实际的执行。例如，在Meso ...

2014-09-20 11:57
浏览 621
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hdfs HA 实验

集群中统一命令执行和文件拷贝

ssh 免密码不工作的问题

docker 用 pipework config ip 建测试集群

graph 属性和方法列表，记录下来学习

spark rdd dataset sql udf udaf

数据挖掘中分类，属性变量如何变 double OHE

spark streaming 如何在 start 之后，修改闭包对象。计算更新

ggplot2 setup

install R

dataframe 和 dataset api

spark rdd 和 DF 转换

Spark 都干啥

spark 不同执行方式的运行期分析

apark 运行和调度

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>