- 浏览: 499233 次
- 性别:
- 来自: 深圳
最新评论
-
IT_LDB:
哥们你帮我大忙了,谢啦。一直在尝试使用内嵌的disco ...
FaceBook PrestoDB 安装文档 -
wxcking:
yugouai 写道wxcking 写道请问,Windows下 ...
阿里DataX编译与案例 -
yugouai:
wxcking 写道请问,Windows下怎么配置呢?Data ...
阿里DataX编译与案例 -
wxcking:
请问,Windows下怎么配置呢?
阿里DataX编译与案例 -
developerinit:
总结的非常好,每次都来看
HIVE中的排序细谈
文章列表
阿里DataX概述
- 博客分类:
- 阿里开源-DataX
DataX 是一款支持任意异构数据系统离线数据交换的工具、框架、平台,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。目前DataX支持数十种各类数据存储、计算系统,每天为阿里集团传输数据高达数十T。DataX服务的客户不仅仅局限于三淘、支付宝、阿里巴巴B2B,阿里集团外部客户有大众点评、蘑菇街等也在采用DataX建设海量数据同步中心。未来DataX将实现阿里集团数据同步总线,实现阿里集团数据无阻碍的流动。 新版DataX 2.0 (分布式版本) 内部已经上线,预计今年正式提交开源社区。
DataX解决的问题
...
Prestodb概述及性能测试
- 博客分类:
- presto系列
概述内容
(1)简介
(2)Hive and Prestodb, comparison of functionality
(3)Hive and Prestodb, comparison of performance
(1)简介
Presto是由facebook开发的一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。
Presto框架图如下:
下面的架构图中展现了简化的Presto系统架构。客户端(cl ...
计算两个日期之间的所有日期
- 博客分类:
- linux编程
#!/bin/bash
# $1<=$2
startdate="$1"
date1=$(date -d "$1" "+%s")
date2=$(date -d "$2" "+%s")
date_count=$(echo "$date2 - $date1"|bc)
day_m=$(echo "$date_count"/86400|bc)
for ((sdate=0;sdate<="$ ...
主要是根据官网内容配置,Presto详细的内容可参考官网
单机安装
1、下载presto-server-0.56.tar.gz,解压后在文件夹里创建etc目录
在etc下创建一下文件与目录:
config.properties : Presto 服务配置
jvm.config : Java虚拟机的命令行 ...
rsync配置与案例
- 博客分类:
- linux编程
安装过程不在此描述。
配置:/etc/rsyncd.conf
uid=root
gid=root
use chroot=no
max connections=5
log file=/var/log/rsyncd.log
secrets file = /etc/rsyncd.secrets
read only = yes
[linuxsirhome]
path = /home
list=yes
ignore errors
auth users = linuxsir
comment = linuxsir home
exclude = beinan/ s ...
rabbitmq入门-RPC
- 博客分类:
- rabbitmq
在项目中引入RabbitMQ通常会考虑它会带来的好处:解耦应用程序,实现不同编程语言之间的互通,解除对特定通信协议的依赖,解除应用程序在时序上执行的依赖(异步).落实到代码层面就是两种常用应用模式:"发后即忘"(fire-and-forget)和RPC.
fire-and-forget
RabbitMQ解决的是应用程序之间互联(connect)和规模(scale)的问题,消息发送和接收是隔离,发送方不知道消息最终由谁接收,接收方也不必关心消息是谁步发出的;发送和接收是隔离的,消息本质上就是异步的.这种隔离也就解耦了应用程序之间的依赖.RabbitMQ的角色就是应 ...
rabbitmq入门-主题
- 博客分类:
- rabbitmq
direct类型的交换器(exchange),交换器将会对binding key和routing key进行精确匹配,从而确定消息该分发到哪个队列。
topic类型的交换器,通过设置routing key,交换器匹配其表达式,从而确认消息分发的队列。
topic类型交换器不能声明任意的routing key,它的组成是一系列的words,不同word之间使用分隔符分开。word可以是任意单词,通常是有意义的描述。如:"stock.usd.nyse", "nyse.vmw","quick.orange.rabbit",最 ...
rabbitmq入门-路由
- 博客分类:
- rabbitmq
创建过绑定(bindings),代码如下:
channel.queueBind(queueName, EXCHANGE_NAME, "");
绑定(binding)是指交换器(exchange)和队列(queue)的关系。可以简单理解为:这个队列(queue)对这个交换器(exchange)的消息感兴趣。
绑定的时候可以带上一个额外的routing_key参数。为了避免与basic_publish的参数混淆,我们把它叫做binding key。以下是如何创建一个带binding key的绑定。
channel.queueBind(queueN ...
rabbitmq入门-发布与订阅
- 博客分类:
- rabbitmq
发布/订阅:分发一个消息给多个消费者(consumers)接收一个生产者生产的消息
交换器(Exchanges)
rabbitmq完整的消息模型
发布者(producer)是发布消息的应用程序。
队列(queue)用于消息存储的缓冲。
消费者(consumer ...
工作队列:为了避免等待一些占用大量资源、时间的操作。当我们把任务(Task)当作消息发送到队列中,一个运行在后台的工作者(worker)进程就会取出任务然后处理。当你运行多个工作者(workers),任务就会在它们之间共享。
消费者1输出
[*] Waiting for messages. To exit press CTRL+C
[x] Received 'hi hi. hi.. hi...1'
[x] Done
[x] Received 'hi hi. hi.. hi...3'
[x] Done
[x] Received 'hi hi. hi.. hi ...
rabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统。rabbitMQ使用二郎语言(ERLANG)编写,使用需安装erlang。
rabbitmq的三个名词解释
生产者:发送消息的程序就是一个生产者(producer)
队列:队列是发送消息的缓冲,基本上是一个无限的缓冲。多个生产者(producers)能够把消息发送给同一个队列,同样,多个消费者(consumers)也能攻从一个队列(queue)中获取数据。
消费:获取队列中的消息。
Hello World步骤
客户端
第一步,建立一个到RabbitMQ服务器的连接
ConnectionFact ...
字符串通过gzip压缩到base64编码
- 博客分类:
- java
方法如下:
有两种实现,一种利用原生Java API,另外使用Apache common---->IOUtils
//测试通过gz压缩->base64编码后字符串
String queryString = "I am still alive";
ByteArrayOutputStream bos = new ByteArrayOutputStream();
Base64OutputStream b64os = new Base64OutputStream(bos);
GZIPOutputStream gout = new GZIPOutputStr ...
Java Collection简单总结
- 博客分类:
- java
集合:
Map-Set之间联系
Map集合的所有key集中起来,这些key就是一个set集合
利用Entry<K,V>实现将Set改造成Map
HashMap与HashSet
HashSet采用hash算法决定集合元素的存储位置,HashMap把value当成key的附属值
集合存储中的非对象本身,而是存储的是对象的引用,引用指向实际的java对象
HashMap中put操作,如果元素个数超过Map中的预测值,则HashMap的容量增大一倍
HashMap的实际容量永远是2的n次方,就算设置的指定大小的HashMap,但是实际容量总比设置的大一些, ...
前几天了解一下友盟SDK上报的相关文档,看到“漏斗模型”概念,总结了一下
一、概念
漏斗模型指的是多个自定义事件序列按照指定顺序依次触发的流程中的量化转化模型。通俗点说,就是从起点到终点有多个环节,每个环节都会产生用户流失,依次递减,每一步都会有一个转化率。另外衍生出“路径分析方法”,包括:关键路径、扩散路径、收敛路径、端点路径,每一条路径,都是一个漏斗。
通常我们会对应用中的一些关键路径进行分析,比如注册流程、购物流程等。通过对关键路径转化率的分析,来确定整个流程的设计是否合理,各步骤的优劣,是否存在优化的空间等,进而提高最终目标的转化率。漏斗 ...