- 浏览: 82568 次
- 性别:
- 来自: 北京
最新评论
-
KeatsLee:
这篇文章是自己总结的吗?还是来自某本书,麻烦告知一下。觉得很经 ...
Java IO -
di1984HIT:
写的不错啊。
hive 实现多行转一行处理方法 -
di1984HIT:
大数据量分析。
hive海量数据--统计一年网站各个产品的UV
文章列表
SHAREit全球累计用户18亿,“双印”市场用户超6亿,月活用户超5亿,覆盖200多个国家和地区,涵盖全球45种语言。稳居Google Play全球总榜Top10,目前已经成为印度、印尼、中东、非洲、俄罗斯等国家和地区的“国民应用”。
我们作为出海的代表,我们的所有服务都上云,那么大数据平台使用aws EMR,但是我们使用kylin 作为我们奥丁报表平台底层OLAP框架时,发现kylin在EMR上安装时出现一些不兼容及不支持aws glue data catalog,遇到问题,解决问题,关于不支持aws glue data catalog 需要修改源码,参考上一篇 ...
我们现在公司所有大数据平台全部上云平台,大数据使用的aws EMR,随着数据暴增带来提数慢,提数难,很难满足数据分析师、运营人员、销售的需求,特别是我们现在商业变现部门的销售人员去客户现场进行数据演示 ...
hive 实现多行转一行处理方法
- 博客分类:
- hive
最近公司在做客户端阅历数据分析,服务器端同事需要计算每个用户的读书分类,读了多少本书,读过多少本书,总时长,总分,数据量非常大,服务器同事那边单机处理一次需要10个小时,后来我拿来我们这边做,分布式计算总比单机计算快吧,所以分享一下:
1.需要统计每个用户的书籍分类
sql:
select us.user_name,us.bid,b.classname from book_class
b join user_all_books_times us on (us.bid=b.bid)
首先统计出来用户读书的分类
2.上面sql查询出来有三个字段需要转化为两个字段 ...
hadoop导入eclipse并编译打包
- 博客分类:
- hadoop
由于最近在修改hadoop的权限配置,需要重新编译打包源码,由于每次导入hadoop源码到eclipse中,有点小麻烦,所以写此文。
1.新建一个java工程,将该工程下面的.classpath .project 拷贝到$HADOOP_HOME下面,然后修改.project里面,将工程名字修改为hadoop-1.0.3
<?xml version="1.0" encoding="UTF-8"?>
<projectDescription>
<name>hadoop-1.0.3</name>
...
远程调试对应用程序开发十分有用。例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序。其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如 ...
maven pom文件解释
- 博客分类:
- maven
<project xmlns="http://maven.apache.org/POM/4.0.0 " xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance " xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd "> <!--父项目的坐标。如果项目中没有规定某个元素的值,那么父项目中的对应值即为 ...
1.mven建立JAVA工程命令:mvn archetype:create -DgroupId=com.renren.dolphin -DartifactId=dolhpin-statistics
2.通用cache
http://www.docin.com/p-529674965.html
分布式搜索方案选型之一:Solr 我第一个了解到的分布式搜索框架是solr,它是由java开发的,基于lucene的分布式搜索引擎,提供了类似于webserver的编程接口,是一个比较成熟的搜索引擎,目前很多公司都在使用。很快我就部署了一个由4台机器组成的solr集群,开始导公司的数据进去测试,导的数据为200万。导入速度非常快。接下来就开始测试查询效率,发现它是有缓存的,第一次查询的时间基本上在80~150毫秒之间,第二次查由于有缓存,查询时间基本上只需要18~35毫秒,可以说非常之快。它如何做到分布式?因为现在做的是集群,每台机器存储的信息是一样的,怎样做到把索引信息进行拆分? ...
1. JMS基本概念 JMS(Java Message Service) 即Java消息服务。它提供标准的产生、发送、接收消息的接口简化企业应用的开发。它支持两种消息通信模型:点到点(point-to-point)(P2P)模型和发布/订阅(Pub/Sub)模型。P2P 模型规定了 ...
设置eclipse workbanch背景
- 博客分类:
- eclipse
eclipse操作界面默认颜色为白色。对于我们长期使用电脑编程的人来说,白色很刺激我们的眼睛,所以我经常会改变workspace的背景色,使眼睛舒服一些。 设置方法如下: 1、打开window->Preference,弹出Preference面板 2、展开General标签,选中Editors选项,展开。 3、选中 Test Editors,右边出现Test Editors面板。 面板中有这样一个选项:Appearance color options; 其中是各种板块颜色的设置,其中有一项是background color,根据自己的喜好选择颜色。 4、 选中background ...
hive metastore 基础表简绍
- 博客分类:
- hive
hive metastore主要涉及的基础表为:
表的关系为
集群182个节点,一天的数据量20亿条,查询网站一天的流量数据:uv、pv、ip、cookie、onlinetime,其中uv、ip、cookie 需要distinct去重。reduce到达99%的时候,就卡死了,由于多个distinct 加上数据倾斜造成的。
优化之前的sql:
select sum(case when d.pv_flag=1 then 1 else 0 end) as pv,count(distinct id) as uv,count(distinct ip) as ip,sum(d.otime),count(distinct cookie),'$STA_TYPE', ...
mysql常用函数总结
- 博客分类:
- Mysql
一、concat
使用方法:
CONCAT(str1,str2,…)
返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。
注意:
如果所有参数均为非二进制字符串,则结果为非二进制字符串。
如果自变量中含有任一二进制字符串,则结果为一个二进制字符串。
一个数字参数被转化为与之相等的二进制字符串格式;若要避免这种情况,可使用显式类型 cast, 例如:
SELECT CONCAT(CAST(int_col AS CHAR), char_col)
MySQL的concat函数可以连接一个或者多个字符串,如
mysql> select con ...
设置JVM启动属性,设置tomcat远程调试端口
- 博客分类:
- JAVA
在eclipse中设置启动属性,或者在命令行运行时设置 -Dproperty=weirongneng
public class Dproperty {
public static void main(String[] args) {
String val = System.getProperty("wrn");
System.out.println(val);
}
}
设置tomcat远程调试端口:
1、开启远程调试端口
WIN系统,在catalina.bat里:
SET CATALINA_OPTS=-server - ...
老的API:
public class MaxTemperature {
public static class MaxTemperatureMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
private static final int MISSING = 9999;
@Override
public void map(LongWritable key, Text value, OutputColle ...