Elasticsearch-RoaringBitmap es v6.2.4的大数据精准去重计数实现版

博客分类：

大数据

Elasticsearch-RoaringBitmap 大数据 distinct 去重计数

Elasticsearch-RoaringBitmap es v6.2.4的大数据精准去重计数实现版本人参照其他人的开源版本实现的es v6.2.4的大数据精准去重计数plugin https://gitee.com/weihonghong/Elasticsearch-RoaringBitmap

2021-12-20 10:04
浏览 543
评论(0)
分类:开源软件

kettle 连接 presto

博客分类：

kettle presto

kettle presto

1.把presto jdbc驱动放到 kettle的lib目录下 2.打开kettle建立数据库连接选中连接类型为Generic database 3.Dialect 选Generic database 4.URL jdbc:presto://192.168.28.12:8080 5. 驱动类名称：com.facebook.presto.jdbc.PrestoDriver 6.用户名：自己的用户名

2021-10-09 17:52
浏览 1184
评论(0)
分类:数据库

spoon kettle : Truncated incorrect DOUBLE value

博客分类：

大数据

今天使用kettle 进行ETL,插入更新组件提示：Truncated incorrect DOUBLE value，因为无法看到组件sql，无从着手，于是使用wireshark 抓取mysql数据包，得到sql为： update user set name='123' where id=3456 原来id我是设置的varchar，所有sql where id=3456 必须加单引号啊，因此通过kettle javascript组件添加一个新参数=''+3456转换为字符串，问题顺利解决

2021-03-08 13:29
浏览 409
评论(0)
分类:开源软件

sparksql优化

博客分类：

大数据

可通过调节此参数spark.sql.shuffle.partitions，，spark.conf().set("spark.sql.shuffle.partitions",60); 来控制sql shuffle task的数量

2021-03-05 13:28
浏览 482
评论(0)
分类:开源软件

org.elasticsearch.hadoop.rest.EsHadoopNoNodesLeftException: Connection error (ch

博客分类：

spark

org.elasticsearch.hadoop.rest.EsHadoopNoNodesLeftException: Connection error (check network and/or proxy settings)- all nodes failed; no nodes left socket time out 问题解决：查看配置文件 org.elasticsearch.hadoop.cfg.Settings 发现存在es.http.timeout 配置项添加配置 esOptions.put("es.http.timeout", &q ...

2021-02-25 16:32
浏览 1729
评论(0)
分类:开源软件

es 7.4.2+spark2.0 访问es

博客分类：

大数据

pom.xml <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>7.4.2</version> </dependency> 代码 private static Map<String, String> getEsConf() ...

2020-12-16 15:17
浏览 415
评论(0)
分类:开源软件

top jstack

博客分类：

top jstack
java

用ps -ef | grep tomcat 查出tomcat运行的进程id 用top -Hp pid 查询进程下所有线程的运行情况（shift+p 按cpu排序，shift+m 按内存排序） top -Hp 30316 找到cpu最高的pid，用printf ‘%x\n’ pid 转换为16进制用jstack 进程id | grep 16进制线程id 找到线程信息 jstack 30316 | grep -A 20772a 作者：二月夜链接：https://www.jianshu.com/p/f59ee619c165 来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注 ...

2020-08-26 14:44
浏览 312
评论(0)
分类:编程语言

spoon kettle 通过sapjco3 连接sap 找不到 ashost

博客分类：

sapjco 找不到 ashost

spoon kettle 通过sapjco3 连接sap 找不到 ashost : 解决办法：设置host 并设置ashost 使用该域名连接否则偶尔会找不到ashost 昨天以为会自动生成sap_hana.jcoDestination所以把放ktr文件目录里面的sap_hana.jcoDestination删除了，结果今天又报错，恢复后正常 ,这几天又报错了。。。网上大概是说每次都要删除这个文件加了shell组件在job里面运行完就删除这个文件，貌似又正常了

2020-08-17 19:18
浏览 884
评论(0)
分类:开源软件

hive mapredtask 错误解决

博客分类：

hadoop

今天执行一个hive sql 报错return code 2 mapredtask报错：查看mapreduce任务日志显示：gc over head limit 内存不够检查sql发现子查询了全表进行group by 果断加上时间过滤条件问题解决

2020-05-18 14:42
浏览 1240
评论(0)

hive on spark 优化关键参数

博客分类：

hive on spark

set mapred.max.split.size=10000000; set spark.default.parallelism=50;

2020-05-18 10:12
浏览 542
评论(0)

pyspark 优化spark分析代码

博客分类：

pyspark

源代码为使用一段for循环进行数据处理，未使用map进行分布式计算优化为： log.rdd.repartition(100).map(RowFunction).saveAsHadoopFile() 其中使用repartition(100)进行重新分区，使得之前只有8个分区的task变成了100个task大大的加速了分析速度（ps:其中又解决了一个乱码问题 ascii unicode乱码导致挂掉了，解决方法：在 /usr/lib/python2.7/site-packages 加入一个 sitecustomize.py文件内容为： # encoding=utf8 import sys r ...

2020-05-13 15:10
浏览 1275
评论(0)

订单商品匹配组合商品

博客分类：

订单商品匹配组合商品

订单商品匹配组合商品，应该拿商品-组合商品关系表去匹配订单商品

2020-04-26 18:16
浏览 459
评论(0)

java io 手写mqtt客户端connect,heartbeat

博客分类：

java
mq

package test; //mqtt协议参考http://www.blogjava.net/yongboy/archive/2014/02/09/409630.html import java.io.*; import java.net.Socket; public class Client { public static final String IP_ADDR = "localhost";//服务器地址 public static final int PORT = 8088;//服务器端口号 public static void main ...

2019-06-20 14:49
浏览 565
评论(0)
分类:互联网

可视化数据结构

博客分类：

数据结构

1. 可视化数据结构：http://www.cs.usfca.edu/~galles/visualization/Algorithms.html 2. C++实现的各种算法演示：http://people.cs.pitt.edu/~kirk/cs1501/animations/ 3. 很酷的各种排序演示：http://sorting.at/ 4. 很有创意的排序比较（匈牙利 Sapientia 大学的 6 种排序算法舞蹈视频）：http://top.jobbole.com/1539/--------------------- 作者：bigleo 来源：CSDN 原文：https://b ...

2019-03-20 14:20
浏览 319
评论(0)
分类:编程语言

idea log乱码

博客分类：

java

第一步:修改intellij idea配置文件：找到intellij idea安装目录，bin文件夹下面idea64.exe.vmoptions和idea.exe.vmoptions这两个文件，分别在这两个文件中添加：-Dfile.encoding=UTF-8 第二步：找到intellij idea的file---settings---Editor---FileEncodings的GlobalEncoding和ProjectEncoding和Default encoding for properties都配置成UTF-8

2018-10-16 14:28
浏览 1997
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Elasticsearch-RoaringBitmap es v6.2.4的大数据精准去重计数实现版

kettle 连接 presto

spoon kettle : Truncated incorrect DOUBLE value

sparksql优化

org.elasticsearch.hadoop.rest.EsHadoopNoNodesLeftException: Connection error (ch

es 7.4.2+spark2.0 访问es

top jstack

spoon kettle 通过sapjco3 连接sap 找不到 ashost

hive mapredtask 错误解决

hive on spark 优化关键参数

pyspark 优化spark分析代码

订单商品匹配组合商品

java io 手写mqtt客户端connect,heartbeat

可视化数据结构

idea log乱码

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>