`
winnerlxh
  • 浏览: 92110 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

项目大数据表分表过程

阅读更多
有一个项目运行了一段时间之后,数据越来越大,有几张表数据达到四千多万,这个时候就考虑对这些大数据表进行分表来加快数据的操作,OK,寻找可以作为分表的KEY,最后找到了一个deviceId码(包含IMEI、MEID和ESN)这个码有个规律就是由数字和字母组合而成,原先想去deviceId的前六位进行加法运算得到一个数字作为表的分别值,后来经过验证发现这三个码是有规律的,前面都各自有代表的意思,所以导致数据分出来之后有些表的数据多有些少,达不到预期想要的结果,只能考虑另外一种方法,最后决定用deviceId码的最后一位来作为分表的依据,因为最后一位是随机码来的,所以分布比较均匀。



200多万的测试数据,结果还是比较满意的。
找到了规律就可以开始分表了,这时候另一个问题迎面而来就是四千多万的数据怎么分到各个表里面去呢,这个可不是一件小事,而且项目在运行着。
方法1:
写了一个存储过程想一次想把一张表分离好,理论上是没有问题的
BEGIN
	
	DECLARE v,num,total INT;

	SET num=100000;
	SET total=40000000;
	SET v=1;
	WHILE v<=CEILING(total/num) DO
		CALL integral_log_analysis((v-1)*num+1,v*num);
		SET v=v+1;
	END WHILE;

END

integral_log_analysis这个存储过程是做分表操作,以为这样就可以很快完成,后来才知道这方法行不通,在本地运行两千万的数据一个晚上才执行完毕,这样是不可能让项目停这么久的时间的。

方法2:
考虑把数据导出来,然后在本地分离好再上传到服务器,这样项目就不用停那么久了。那首先就是把数据导出来,9G的数据导出来可不是一件容易的事,
mysqldump -uroot -pdbpasswd dbname test>db.sql;
这种方法可以导出一个表的结构和数据,但是导入到本地的却要很长的时间,执行了一个晚上都没执行完,最后只能放弃了。

方法3:
把数据按照预定的规则导出成文本,然后再导入到表,这种方法最后得到了验证,而且速度之快,大概半个小时就可以执行完毕。
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='1' or lower(RIGHT(imei,1))='a' or lower(RIGHT(imei,1))='k' or lower(RIGHT(imei,1))='u' Into OutFile '/var/lib/mysql/integral_log_s1.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='2' or lower(RIGHT(imei,1))='b' or lower(RIGHT(imei,1))='l' or lower(RIGHT(imei,1))='v' Into OutFile '/var/lib/mysql/integral_log_s2.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='3' or lower(RIGHT(imei,1))='c' or lower(RIGHT(imei,1))='m' or lower(RIGHT(imei,1))='w' Into OutFile '/var/lib/mysql/integral_log_s3.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='4' or lower(RIGHT(imei,1))='d' or lower(RIGHT(imei,1))='n' or lower(RIGHT(imei,1))='x' Into OutFile '/var/lib/mysql/integral_log_s4.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='5' or lower(RIGHT(imei,1))='e' or lower(RIGHT(imei,1))='o' or lower(RIGHT(imei,1))='y' Into OutFile '/var/lib/mysql/integral_log_s5.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='6' or lower(RIGHT(imei,1))='f' or lower(RIGHT(imei,1))='p' or lower(RIGHT(imei,1))='z' Into OutFile '/var/lib/mysql/integral_log_s6.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='7' or lower(RIGHT(imei,1))='g' or lower(RIGHT(imei,1))='q' Into OutFile '/var/lib/mysql/integral_log_s7.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='8' or lower(RIGHT(imei,1))='h' or lower(RIGHT(imei,1))='r' Into OutFile '/var/lib/mysql/integral_log_s8.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='9' or lower(RIGHT(imei,1))='i' or lower(RIGHT(imei,1))='s' Into OutFile '/var/lib/mysql/integral_log_s9.txt';
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='0' or lower(RIGHT(imei,1))='j' or lower(RIGHT(imei,1))='t' Into OutFile '/var/lib/mysql/integral_log_s0.txt';




load data local infile "/var/lib/mysql/integral_log_s0.txt" ignore into table integral_log_s0(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s1.txt" ignore into table integral_log_s1(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s2.txt" ignore into table integral_log_s2(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s3.txt" ignore into table integral_log_s3(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s4.txt" ignore into table integral_log_s4(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s5.txt" ignore into table integral_log_s5(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s6.txt" ignore into table integral_log_s6(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s7.txt" ignore into table integral_log_s7(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s8.txt" ignore into table integral_log_s8(userId,imei,fid,integral,activation,type,insertTime);
load data local infile "/var/lib/mysql/integral_log_s9.txt" ignore into table integral_log_s9(userId,imei,fid,integral,activation,type,insertTime);

必须注意的是:如果自增id不想弄到新表中,那么在select中列出要获取的字段,outfile后面是你想要导出文本的路径:
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='0' or lower(RIGHT(imei,1))='j' or lower(RIGHT(imei,1))='t' Into OutFile '/var/lib/mysql/integral_log_s0.txt';


在插入数据的时候,如果有存在索引或者约束必须先去掉,这样速度才可以更快,弄完之后再做加上去,在load data local infile的时候必须注意也要把字段写上去,这样才不会产生字段对应错误
load data local infile "/var/lib/mysql/integral_log_s0.txt" ignore into table integral_log_s0(userId,imei,fid,integral,activation,type,insertTime);


数据导完算是完成了一大半了,这个时候就是加上索引和约束,因为分表之后每个表还有400多万的数据,要每个表加上索引还是有些些痛苦的
刚开始测试用
create index index1 on integral_log_s0(imei, fid, type);

发现速度没有
ALTER TABLE integral_log_s0 add index index1(imei, fid, type);

快,所以用了下面的方法,执行了一下,一个表要40多分钟才执行完,太慢,影响用户访问,后来优化了一下mysql的配置my.cnf
[client]
#password	= your_password
port		= 3306
socket		= /var/lib/mysql/mysql.sock

[mysqld]
port		= 3306
socket          = /var/lib/mysql/mysql.sock
datadir = /var/lib/mysql
log-error = /var/log/mysql/mysql-error.log
pid-file = /var/lib/mysql/mysql.pid
#skip-external-locking
skip-locking
skip-name-resolve
event_scheduler=ON
character-set-server = utf8
max_connections = 6000
max_connect_errors = 6000
wait_timeout=600
interactive_timeout=600
log-bin=mysql-bin
expire_logs_days=15
log_slave_updates = 1
binlog_cache_size  = 4M
max_binlog_cache_size = 8M
max_binlog_size = 1G
binlog-ignore-db = mysql
binlog-ignore-db = test
binlog-ignore-db = information_schema


key_buffer_size = 384M
sort_buffer_size = 6M
read_buffer_size = 4M
read_rnd_buffer_size = 16M
join_buffer_size = 2M
thread_cache_size = 64
query_cache_size = 128M
query_cache_limit = 2M
query_cache_min_res_unit = 2K
thread_concurrency = 8

table_cache = 1024
table_open_cache = 512
open_files_limit = 10240
back_log = 450
external-locking = FALSE

max_allowed_packet = 16M
default-storage-engine = MyISAM
thread_stack = 256K
#transaction_isolation = READ-COMMITTED
tmp_table_size = 256M
max_heap_table_size = 512M

bulk_insert_buffer_size = 64M
myisam_sort_buffer_size = 64M
myisam_max_sort_file_size = 4G
myisam_repair_threads = 1
myisam_recover

long_query_time = 2
slow_query_log
#skip-networking


[mysqldump]
quick
max_allowed_packet = 16M

[mysql]
no-auto-rehash
# Remove the next comment character if you are not familiar with SQL
#safe-updates

[isamchk]
key_buffer = 128M
sort_buffer_size = 128M
read_buffer = 2M
write_buffer = 2M

[myisamchk]
key_buffer_size = 256M
sort_buffer_size = 256M
read_buffer = 2M
write_buffer = 2M

[mysqlhotcopy]
interactive-timeout


这样优化后,再执行添加索引,这些一个表只要2分钟就可以完成建立索引操作。这个时候终于完成了,我们分表的操作了,过程曲直,结果还是理想的。
  • 大小: 10.3 KB
1
1
分享到:
评论
1 楼 须等待 2013-08-01  
Select userId,imei,fid,integral,0,type,insertTime From `integral_log` where lower(RIGHT(imei,1))='1' or lower(RIGHT(imei,1))='a' or lower(RIGHT(imei,1))='k' or lower(RIGHT(imei,1))='u' Into OutFile '/var/lib/mysql/integral_log_s1.txt'; 

这种sql要扫全表的,为什么半个小时就结束了?

相关推荐

    Python+MySQL分表分库实战

    1. **分表**:分表通常采用两种方式,一种是**哈希分表**,根据特定字段(如用户ID)的哈希值将数据分布到不同的子表中,保证同一字段值的数据始终落在同一表内;另一种是**范围分表**,根据时间或其他连续字段进行...

    分库分表数据看板项目实战

    在IT行业中,数据库管理是至关重要的,特别是在大数据时代,数据量激增,传统的单库单表模式往往无法满足性能和扩展性的需求。因此,“分库分表”技术应运而生,这是一种有效的数据库水平扩展策略。本项目实战“分库...

    sharding-sphere-demo 分表分库

    **分表分库技术概述** ...通过这个示例,你可以学习到如何在实际项目中使用Sharding-Sphere进行数据库的分布式管理,理解分库分表的实现过程,以及Sharding-Sphere如何解决大数据场景下的性能问题。

    bigdata-music大数据音乐推荐系统

    在大数据场景下,虽然单个MySQL可能不足以应对海量数据,但可以通过分库分表、读写分离等策略进行优化。同时,它还可以与NoSQL数据库如HBase或MongoDB配合,实现混合数据存储。 Hadoop是大数据处理的核心工具,其...

    MySQL数据库分表批量主键查询代理-mysql-partitions-proxy.zip

    当单个表的数据量过大,为了提高查询速度和维护数据库性能,通常会将大表拆分为多个小表,这就是分表。分表方式有多种,比如按照范围、哈希值或者时间等规则进行切分。在MySQL中,可以使用内置的分区功能来实现。 ...

    对分库分表的一些想法

    标题"对分库分表的一些想法"表明我们将探讨这一主题,可能涉及如何设计分库分表的策略,以及实施过程中可能遇到的问题和解决方案。在这个博客中,作者可能分享了关于数据库架构优化、数据分布策略、事务一致性等方面...

    详解 Mycat 2 分库分表(一)绑定资源

    分表则是将一个大表拆分成多个小表,通常基于某种规则(如哈希、范围等)进行切分,以平衡负载和提高查询效率。Mycat作为数据库中间件,可以在用户透明的情况下实现这一过程,使得应用层无需感知底层数据库的复杂性...

    ASP.NET + SqlSever 大数据解决方案 PK HADOOP - 孙凯旋 - 博客园.pdf

    2. **复杂性增加:** 需要通过分表、分区等手段来提升性能,这增加了系统的复杂度和维护难度。 3. **扩展性不足:** 缺乏内置的水平扩展能力,如多库负载均衡和并行计算功能。 **SqlServer处理大数据的可能性:** - ...

    大数据模型构建平台介绍vPPT课件.pptx

    - 内部需求:模型设计经验丰富,但缺乏有效的载体,导致经验沉淀不足,项目实施过程中人力复用率低,工作效率不高。 - 行业需求:通信行业的BI系统面临瓶颈,指标混乱,管理无序,需要对数据仓库进行重构。 - 大...

    全新设计的mysql分库分表中间件。使用netty 4.1开发,基于spring boot-cl-uw-mydb.zip

    MySQL分库分表中间件是一种用于解决大数据场景下数据库扩展性的解决方案。在传统的单库单表模式下,随着数据量的增长,数据库性能会逐渐下降,影响整个系统的响应速度。为了解决这一问题,开发者通常会采用分库分表...

    Java开发者或者大数据开发者面试知识点整理.zip

    7. **数据库知识**:SQL查询优化,事务的ACID属性,索引原理,数据库设计范式,分库分表策略,以及MySQL、Oracle等主流数据库的特性和使用。 8. **算法与数据结构**:基础算法如排序(快速、归并、冒泡、插入等)、...

    sharding-jdbc-test.zip

    "项目初始化自动创建,也可以定时创建表" 指出该系统具备自动化能力,能够在项目启动时自动根据规则创建所需分表,或者可以通过定时任务动态地根据时间创建新表,适应业务的发展和数据的增长。 **标签解析:** ...

    sharding-jdbc-mybatis 2.zip

    分库分表是一种常见的解决大数据存储和处理问题的策略,它通过将数据分散到多个数据库或表中,有效地降低了单一数据库的压力,提升了系统的整体性能。本实例主要介绍了如何结合Sharding-JDBC和MyBatis实现这一策略。...

    Java ️总结:JVM,NIO,并发编程,MySQL,分库分表,微服务,分布式缓-Java-Summarize.zip

    数据库分库分表是一种常见的大数据量处理策略,通过水平分割和垂直分割来分散数据,降低单表压力,提高查询效率。例如,使用ShardingSphere等中间件进行分片规则配置,实现数据的自动分发和路由。理解分库分表的优...

    mysql学习总结.zip

    3. 分区与分表:对大数据表进行分区或分表,提高查询效率。 4. SQL优化:避免全表扫描,合理使用JOIN操作,减少子查询,提升SQL执行性能。 六、备份与恢复 1. 数据备份:`mysqldump` 命令用于备份整个数据库或单个...

    php+ajax实现带进度条的大数据排队导出思路以及

    在`excel_export2()`函数中,使用了多个全局变量来记录和控制导出操作的状态和进度,如`processed_count`(已处理的数据条数)、`index`(当前导出批次的索引)、`count_arr`(存储每张表的导出数据量)、`type_arr`...

    sharding-jdbc-boot-demo.zip

    分库分表是一种常见的数据库扩展策略,通过将大数据分散到多个数据库或表中,以提高查询性能和系统并发能力。Sharding-JDBC支持基于业务规则的动态分片策略,可以根据特定字段的值自动将数据分布到不同的数据库或表...

    shardingdemo.rar

    分库分表是一种常见的解决大数据存储和查询效率问题的方法。本文将深入探讨一个基于Java的分库分表Demo——"shardingdemo.rar",它利用了Sharding-JDBC和MyBatis这两个强大的工具,旨在帮助开发者理解和实践数据分片...

    mycat-1.6.5

    它通过水平拆分(将同一表的数据分散到多个表中)和垂直拆分(将不同业务的数据分布到不同的数据库中)来实现分库分表,从而提高系统的可扩展性和响应速度。 **读写分离** 读写分离是另一种优化数据库性能的方法,...

Global site tag (gtag.js) - Google Analytics