- 浏览: 51869 次
- 性别:
- 来自: 深圳
最新评论
-
linuxzhang:
这样子的感谢信就不要发在这里啦
UNPIVOT 列转行 oracle11
文章列表
Elasticsearch-RoaringBitmap es v6.2.4的大数据精准去重计数实现版
本人参照其他人的开源版本实现的es v6.2.4的大数据精准去重计数plugin
https://gitee.com/weihonghong/Elasticsearch-RoaringBitmap
1.把presto jdbc驱动 放到 kettle的lib目录下
2.打开kettle建立数据库连接 选中连接类型为Generic database
3.Dialect 选Generic database
4.URL jdbc:presto://192.168.28.12:8080
5. 驱动类名称:com.facebook.presto.jdbc.PrestoDriver
6.用户名:自己的用户名
今天使用kettle 进行ETL,插入更新组件提示:Truncated incorrect DOUBLE value,
因为无法看到组件sql,无从着手,于是使用wireshark 抓取mysql数据包,
得到sql为: update user set name='123' where id=3456
原来id我是设置的varchar,所有sql where id=3456 必须加单引号啊,因此通过kettle javascript组件添加一个新参数=''+3456转换为字符串,问题顺利解决
sparksql优化
- 博客分类:
- 大数据
可通过 调节此参数spark.sql.shuffle.partitions,,spark.conf().set("spark.sql.shuffle.partitions",60);
来控制sql shuffle task的数量
org.elasticsearch.hadoop.rest.EsHadoopNoNodesLeftException: Connection error (check network and/or proxy settings)- all nodes failed;
no nodes left socket time out
问题解决:
查看配置文件
org.elasticsearch.hadoop.cfg.Settings
发现存在es.http.timeout
配置项
添加配置 esOptions.put("es.http.timeout", &q ...
es 7.4.2+spark2.0 访问es
- 博客分类:
- 大数据
pom.xml
<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>7.4.2</version> </dependency>
代码
private static Map<String, String> getEsConf() ...
top jstack
- 博客分类:
- top jstack
- java
用ps -ef | grep tomcat 查出tomcat运行的进程id
用top -Hp pid 查询进程下所有线程的运行情况(shift+p 按cpu排序,shift+m 按内存排序)
top -Hp 30316
找到cpu最高的pid,用printf ‘%x\n’ pid 转换为16进制
用jstack 进程id | grep 16进制线程id 找到线程信息
jstack 30316 | grep -A 20772a
作者:二月夜
链接:https://www.jianshu.com/p/f59ee619c165
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注 ...
spoon kettle 通过sapjco3 连接sap 找不到 ashost :
解决办法:
设置host 并设置ashost 使用该域名连接否则偶尔会找不到ashost
昨天以为会自动生成sap_hana.jcoDestination所以把放ktr文件目录里面的sap_hana.jcoDestination删除了,结果今天又报错,恢复后正常
,这几天又报错了。。。
网上大概是说每次都要删除这个文件
加了shell组件在job里面运行完就删除这个文件,貌似又正常了
hive mapredtask 错误解决
- 博客分类:
- hadoop
今天执行 一个hive sql 报错return code 2 mapredtask报错:
查看mapreduce任务日志显示:gc over head limit 内存不够
检查sql发现子查询了全表进行group by
果断加上时间过滤条件 问题解决
- 2020-05-18 14:42
- 浏览 1172
- 评论(0)
set mapred.max.split.size=10000000;
set spark.default.parallelism=50;
- 2020-05-18 10:12
- 浏览 528
- 评论(0)
pyspark 优化spark分析代码
- 博客分类:
- pyspark
源代码为使用一段for循环进行数据处理,未使用map进行分布式计算
优化为:
log.rdd.repartition(100).map(RowFunction).saveAsHadoopFile()
其中使用repartition(100)进行重新分区,使得之前只有8个分区的task变成了100个task大大的加速了分析速度
(ps:其中又解决了一个乱码问题 ascii unicode乱码导致挂掉了,解决方法:
在 /usr/lib/python2.7/site-packages
加入一个 sitecustomize.py文件
内容为:
# encoding=utf8
import sys
r ...
- 2020-05-13 15:10
- 浏览 1254
- 评论(0)
package test;
//mqtt协议参考http://www.blogjava.net/yongboy/archive/2014/02/09/409630.html
import java.io.*;
import java.net.Socket;
public class Client {
public static final String IP_ADDR = "localhost";//服务器地址
public static final int PORT = 8088;//服务器端口号
public static void main ...
1. 可视化数据结构:http://www.cs.usfca.edu/~galles/visualization/Algorithms.html
2. C++实现的各种算法演示:http://people.cs.pitt.edu/~kirk/cs1501/animations/
3. 很酷的各种排序演示:http://sorting.at/
4. 很有创意的排序比较(匈牙利 Sapientia 大学的 6 种排序算法舞蹈视频):http://top.jobbole.com/1539/--------------------- 作者:bigleo 来源:CSDN 原文:https://b ...
idea log乱码
- 博客分类:
- java
第一步:修改intellij idea配置文件:
找到intellij idea安装目录,bin文件夹下面idea64.exe.vmoptions和idea.exe.vmoptions这两个文件,分别在这两个文件中添加:-Dfile.encoding=UTF-8
第二步:找到intellij idea的file---settings---Editor---FileEncodings的GlobalEncoding和ProjectEncoding和Default encoding for properties都配置成UTF-8