本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sichunli_030
- sam123456gz
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
mysql event
fdate按日期分区
create table myevent
(
fdate int(11) not null default '0',
appid int,
primary key(fdate)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
PARTITION BY RANGE(TO_DAYS(fdate))
(PARTITION p2 ...
使用MapReduce对数据文件进行切分
有一个格式化的数据文件,用\t分割列,第2列为产品名称。现在需求把数据文件根据产品名切分为多个文件,使用MapReduce程序要如何实现?
原始文件:
[root@localhost opt]# cat aprData
1 a1 a111
2 a2 a211
3 a1 a112
4 a1 a1 ...
[转] Hive 基础(1):分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。
其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其 ...
kafka获得最新partition offset
kafka获得partition下标,需要用到kafka的simpleconsumer
import java.util.ArrayList;
import java.util.Collections;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
import java.util. ...
spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
问题1:reduce task数目不合适
解决方案:
需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism
问题2:shuffle ...
如何使用Hadoop的Partitioner
Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己的一些特殊需求。
今天散仙要说的这个分区函数Partitioner,也是一样如此,下面我们先来看下Partitioner的作用:
对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区。
Hadoop默认使用的分区函数是Hash Parti ...
实战mysql分区(PARTITION)
前些天拿到一个表,将近有4000w数据,没有任何索引,主键。(建这表的绝对是个人才)
这是一个日志表,记录了游戏中物品的产出与消耗,原先有一个后台对这个表进行统计。。。。。(这要用超级计算机才能统计得出来吧),只能帮前人填坑了。。。。
数据太大,决定用分区来重构。
如果你发现是empty,说明你的mysql版本不够,分区至少要5.1
下面针对业务查询,决定用时间来做range分 ...
mapreduce排序中java.io.IOException: Illegal partition for 2 (-1)
mapreduce程序,自定义了Partition,运行时出现以下异常:
java.io.IOException: Illegal partition for 2 (-1)
自定义Partition代码:
public static class Partition extends Partitioner<IntWritable,IntWritable>
{
@Ove ...
Mysql存储过程-进一步理解
作者:zccst
查询资料后,发现想彻底学好分区,还是看mysql官方手册,之前一直不愿意看官方手册,现在看来该是看手册的时候了。
先给两个地址:
分区裁剪(Pruning)
http://dev.mysql.com/doc/refman/5.1/en/partitioning-pruning.html
完整的分区介绍:
http://dev.mysql.com/doc/refman/5.1/ ...
PostgreSQL和PPAS的分区表及多种条件下的性能体现二
PPAS中的分区表可以按oracle兼容的语法创建,具体使用请参见《Postgres_Plus_Advanced_Server_Oracle_Compatibility_Guide_v91.pdf》。下面是分区表上操作的相关情况1创建表:create table test (id integer primary key, name varchar(32))PARTITION BY RANGE (i ...
PostgreSQL和PPAS的分区表及多种条件下的性能体现一
因某项目测了PPAS和PostgreSQL的分区表在where条件里按分区键、函数、子查询等11中不同情况时的性能体现,两者基本一致,只有在in关键字和to_number函数的情况下不同,in关键字在PPAS中只扫描对应的子表,Postgres里做全表扫描;to_number函数在PostgreSQL中是没有的,因此报错,因为PPAS有兼容oracle引擎,所以没问题,走相应子表扫描。相同的情况 ...
Database Table Partitioning
http://en.wikipedia.org/wiki/Partition_(database)引用常见的为 table 做 partitioning 的策略有:
Range partitioning
Selects a partition by determining if the partitioning key is inside a certain range. An exampl ...