kakfa offset

package cn.analysys.stream.state import java.nio.ByteBuffer import cn.analysys.meta.MetaMapInfo import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, ...

2018-01-01 22:08
浏览 443
评论(0)
分类:非技术

hllc 不同M 的小基数的误差率

博客分类：

scala

结论： testHllcError(10, tt) 31 开始出现误差 testHllcError(11, tt) 33 开始出现误差 testHllcError(13, tt) 42 开始出现误差 testHllcError(14, tt) 100 开始出现误差 package hllctest import org.scalatest.FlatSpec import org.spark.sqludf.HLLCounter import scala.collection.mutable import scala.util ...

2017-12-22 14:20
浏览 480
评论(0)
分类:非技术

基数预估算法错误率验证

博客分类：

scala

package hllctest import java.util import org.scalatest.{FlatSpec} import org.spark.sqludf.HLLCounter import scala.collection.mutable import scala.collection.mutable.ArrayBuffer import scala.util.Random class HllcCrossSetTest extends FlatSpec { val ramdom = new Random() val m = 18 // 用于验证h ...

2017-11-25 16:32
浏览 570
评论(0)
分类:非技术

spark thrift server 调试

博客分类：

spark 学习

spark-hive-thriftserver 本地调试 1 再加入 maven 2 加入 spark/jars 下面的包起 hivethrift Server 类，会出现一个找不到 xml .elelement 类的问题。 1 要先加入 spark/jars 下面的包 2 再加入 maven , 就 OK ，估计是包冲突。

2017-10-20 15:50
浏览 879
评论(0)
分类:非技术

spark SQL conf

博客分类：

spark 学习

org.apache.spark.sql.internal.SQLConf org.apache.spark.sql.hive.HiveUtils

2017-10-18 14:36
浏览 680
评论(0)
分类:非技术

java 死锁，内存问题分析

博客分类：

spark 学习

jstack -l pid /opt/soft/jdk/bin/jstat -gcutil 124485 1000 1000 /opt/soft/jdk/bin/jmap -dump:format=b,file=124485.dump 124485 /opt/soft/jdk/bin/jmap -histo 124485

2017-10-17 10:50
浏览 372
评论(0)
分类:非技术

thriftServer proxy

博客分类：

spark 学习

sudo yum install haproxy 257 yun -ql haproxy 258 rpm -ql haproxy 259 cat /share/doc/haproxy-1.5.18/haproxy.cfg 260 cat /usr//share/doc/haproxy-1.5.18/haproxy.cfg 261 top 262 mkdir /usr/local/haproxy/logs 263 sudo mkdir -p /usr/local/haproxy/logs 264 ls 265 haproxy -f /home ...

2017-10-16 14:21
浏览 967
评论(0)
分类:非技术

newExecuteStatementOperation single session

博客分类：

scala

var udfNotInited = true override def newExecuteStatementOperation( parentSession: HiveSession, statement: String, confOverlay: JMap[String, String], async: Boolean): ExecuteStatementOperation = synchronized { val sqlContext = sessionToContexts.get(parentSession.getSe ...

2017-10-16 09:52
浏览 593
评论(0)
分类:非技术

hive spark conf

博客分类：

spark 学习

CREATE TABLE org_userbehavior_all_yunzhi ( user_id Int ,event_time bigint ,behivior_id SMALLINT ,behivior_name String ,behivior_pop String ,record_date String ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE location '/user/hive/warehouse/org_userbehavior_all_yunzhi'; LOAD DATA I ...

2017-09-26 17:44
浏览 1318
评论(0)
分类:非技术

yarn spark

博客分类：

scala

--master yarn --deploy-mode client --num-executors 4 --executor-memory 6g --executor-cores 3 --conf spark.default.parallelism=40 --conf spark.sql.shuffle.partitions=20

2017-09-19 14:08
浏览 315
评论(0)
分类:非技术

get day

博客分类：

spark 学习

def timeDayNow() = { var nowMis = timeNow() nowMis - ((nowMis + 28800l) % 86400) }

2017-09-19 08:41
浏览 600
评论(0)
分类:非技术

test code 09-18-2

博客分类：

scala

object FunnelUtil { var gson: Gson = new GsonBuilder().create val maxFunnelLength = 10 var beginTimestamp = 0 var eventLength = 0 var eventMap : mutable.HashMap[Short,Byte] = null def initEventMap(eventDesc :String) ={ val initEventMap = new mutable.HashMap[Short,Byte]() var inde ...

2017-09-18 18:47
浏览 339
评论(0)
分类:非技术

交流 code 09-18

博客分类：

scala

object DataProcess extends App { val spark = SparkSession .builder() .appName("UserBehiviorToHHDataPartition") .getOrCreate() val dataCollection = spark.sparkContext.textFile("./testdata/ods") import spark.implicits._ val mergePartitonStroragePath = "./t ...

2017-09-18 18:45
浏览 329
评论(0)
分类:非技术

mvn + scala support

博客分类：

scala

<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <configuration> <source>1.8</source> <target>1.8</target> ...

2017-09-15 10:00
浏览 426
评论(0)
分类:非技术

thriftserver

博客分类：

spark 学习

export SPARK_CONF_DIR=/home/yunzhi.lyz/spark/spark220/conf spark-default.conf spark.yarn.jars hdfs:/app/jars/*.jar # hdfs jar，每次 submit ，如果 spark/jars 下面 jar 和 HDFS 上一样，用 HDFS上的，优先用 driver 上的jar spark.app.confpath /udfconf/udf.config # hdfs 配置 start-thriftserver.sh 一定要用 client 模式，而 clie ...

2017-09-14 19:47
浏览 501
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

kakfa offset

hllc 不同M 的小基数的误差率

基数预估算法错误率验证

spark thrift server 调试

spark SQL conf

java 死锁，内存问题分析

thriftServer proxy

newExecuteStatementOperation single session

hive spark conf

yarn spark

get day

test code 09-18-2

交流 code 09-18

mvn + scala support

thriftserver

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>