`
weihong01267
  • 浏览: 51869 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表
Elasticsearch-RoaringBitmap  es v6.2.4的大数据精准去重计数实现版 本人参照其他人的开源版本实现的es v6.2.4的大数据精准去重计数plugin   https://gitee.com/weihonghong/Elasticsearch-RoaringBitmap
1.把presto jdbc驱动 放到 kettle的lib目录下 2.打开kettle建立数据库连接 选中连接类型为Generic database 3.Dialect 选Generic database 4.URL jdbc:presto://192.168.28.12:8080 5. 驱动类名称:com.facebook.presto.jdbc.PrestoDriver 6.用户名:自己的用户名
今天使用kettle 进行ETL,插入更新组件提示:Truncated incorrect DOUBLE value, 因为无法看到组件sql,无从着手,于是使用wireshark 抓取mysql数据包, 得到sql为: update user set name='123' where id=3456 原来id我是设置的varchar,所有sql where id=3456 必须加单引号啊,因此通过kettle  javascript组件添加一个新参数=''+3456转换为字符串,问题顺利解决

sparksql优化

可通过 调节此参数spark.sql.shuffle.partitions,,spark.conf().set("spark.sql.shuffle.partitions",60); 来控制sql shuffle task的数量
org.elasticsearch.hadoop.rest.EsHadoopNoNodesLeftException: Connection error (check network and/or proxy settings)- all nodes failed;  no nodes left socket time out 问题解决: 查看配置文件 org.elasticsearch.hadoop.cfg.Settings   发现存在es.http.timeout 配置项 添加配置 esOptions.put("es.http.timeout", &q ...
pom.xml  <dependency>            <groupId>org.elasticsearch</groupId>            <artifactId>elasticsearch-spark-20_2.11</artifactId>            <version>7.4.2</version>        </dependency>   代码 private static Map<String, String> getEsConf() ...

top jstack

用ps -ef | grep tomcat 查出tomcat运行的进程id 用top -Hp pid 查询进程下所有线程的运行情况(shift+p 按cpu排序,shift+m 按内存排序) top -Hp 30316 找到cpu最高的pid,用printf ‘%x\n’ pid 转换为16进制 用jstack 进程id | grep 16进制线程id 找到线程信息 jstack 30316 | grep -A 20772a 作者:二月夜 链接:https://www.jianshu.com/p/f59ee619c165 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注 ...
spoon kettle 通过sapjco3 连接sap 找不到 ashost : 解决办法: 设置host 并设置ashost 使用该域名连接否则偶尔会找不到ashost 昨天以为会自动生成sap_hana.jcoDestination所以把放ktr文件目录里面的sap_hana.jcoDestination删除了,结果今天又报错,恢复后正常 ,这几天又报错了。。。 网上大概是说每次都要删除这个文件 加了shell组件在job里面运行完就删除这个文件,貌似又正常了
今天执行 一个hive sql 报错return code 2 mapredtask报错: 查看mapreduce任务日志显示:gc over head limit 内存不够 检查sql发现子查询了全表进行group by 果断加上时间过滤条件 问题解决
set mapred.max.split.size=10000000; set spark.default.parallelism=50;
源代码为使用一段for循环进行数据处理,未使用map进行分布式计算 优化为: log.rdd.repartition(100).map(RowFunction).saveAsHadoopFile() 其中使用repartition(100)进行重新分区,使得之前只有8个分区的task变成了100个task大大的加速了分析速度 (ps:其中又解决了一个乱码问题 ascii unicode乱码导致挂掉了,解决方法: 在 /usr/lib/python2.7/site-packages 加入一个 sitecustomize.py文件 内容为: # encoding=utf8 import sys r ...
订单商品匹配组合商品,应该拿商品-组合商品关系表 去匹配订单商品
package test; //mqtt协议参考http://www.blogjava.net/yongboy/archive/2014/02/09/409630.html import java.io.*; import java.net.Socket; public class Client { public static final String IP_ADDR = "localhost";//服务器地址 public static final int PORT = 8088;//服务器端口号 public static void main ...
1. 可视化数据结构:http://www.cs.usfca.edu/~galles/visualization/Algorithms.html  2. C++实现的各种算法演示:http://people.cs.pitt.edu/~kirk/cs1501/animations/ 3. 很酷的各种排序演示:http://sorting.at/ 4. 很有创意的排序比较(匈牙利 Sapientia 大学的 6 种排序算法舞蹈视频):http://top.jobbole.com/1539/--------------------- 作者:bigleo 来源:CSDN 原文:https://b ...

idea log乱码

    博客分类:
  • java
第一步:修改intellij idea配置文件: 找到intellij idea安装目录,bin文件夹下面idea64.exe.vmoptions和idea.exe.vmoptions这两个文件,分别在这两个文件中添加:-Dfile.encoding=UTF-8 第二步:找到intellij idea的file---settings---Editor---FileEncodings的GlobalEncoding和ProjectEncoding和Default encoding for properties都配置成UTF-8
Global site tag (gtag.js) - Google Analytics