`
learnmore
  • 浏览: 605720 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

关于大数据表的拆分

 
阅读更多
由于数据表的数据量预估会很大,因此开始考虑对表进行拆分,把超过一个月的数据转到历史表,历史表的表结构和当前表一样,以下做法只是一种思路,记录下来和大家分享一下。
数据表称为A表,历史表称为B表
1.创建一个临时表,临时表中只有一个字段就是表A的主键
2.计算表A中超过30天的数据有多少条,count(1)
3.计算数据在转移时需要提交多少次,假设一次提交5000条数据,如果有1万数据,那么就提交两次,如果有1.5万数据,提交三次(三次循环)
4.每次抓取5000条主键id存入临时表(select id from A where time>30 fetch 5000 row only)
5.根据临时表中的id,把表A的数据查出来插入表B(insert into B (select * from A where id in (select id from 临时表)))
6.清空临时表中的数据
7.删除表A中对应的纪录(delete from A where id in (select id from 临时表))

注意:4.5.6.7需要在一个事务中执行,每次循环都有事务控制
分享到:
评论

相关推荐

    excel大数据拆分

    几万条的excel根据标题进行拆分,拆分成工作薄。

    csv拆分-大文件大数据大表格千万级数据批量拆分分割工具

    首先,我要介绍的是一款由“勤学道人”开发的高性能一键合并工具——一键表格合并助手。这款工具非常适合小白用户,因为它有一个...支持单表千万量级拆分 支持批量拆分 支持带表头拆分 高性能:Python应用,支持多线程

    SQL SERVER利用分区对大数据表处理操作手册.pdf

    垂直分区则是将表的列拆分成多个表,每个表包含一部分列。通常,水平分区是更常见的方法,尤其适用于时间序列数据,例如本文中的例子,将短信发送记录按月份分区。 创建分区的关键步骤包括定义分区函数和文件组。...

    SQL SERVER利用分区对大数据表处理操作手册.docx

    SQL Server的分区技术是针对大数据表管理的一种高效策略,尤其在处理超大型数据库时显得尤为重要。随着数据量的不断增长,传统的数据管理方式可能会导致性能下降和维护复杂性增加。分区能够将大表拆分为更小、更易...

    C# Socket 客户端服务端封装 支持多连接处理 Tasks多线程 队列处理 大数据拆分包处理

    本文将详细解析标题和描述中提到的"C# Socket客户端服务端封装,支持多连接处理,Tasks多线程,队列处理,大数据拆分包处理"的相关知识点。 首先,Socket在C#中是.NET Framework提供的一个类库,它允许开发者构建...

    excel表拆分工具

    在Excel处理大数据时,有时我们需要将一个大表格拆分成多个小表格,以便于管理、分析或简化工作流程。"Excel表拆分工具"是解决这一问题的有效方法,它利用了Excel中的宏(VBA,Visual Basic for Applications)来...

    大数据迁移实践之路.pdf

    通过以上策略,大数据表得以有效拆分,运行表的负载显著降低,系统的响应速度和资源利用效率得到了提升。这种实践经验对于面临大数据挑战的其他企业具有重要的参考价值,展示了如何通过精细化的数据管理和迁移优化来...

    大数据技术基础大作业数据.zip

    MapReduce是Hadoop中的并行计算模型,通过将大数据拆分成小块,在多台机器上并行处理,大大提高了处理效率。 此外,还有可能包含Apache Spark的内容。Spark是另一种快速、通用的大数据处理引擎,相比Hadoop更擅长...

    Map拆分List拆分

    在大数据处理领域,高效的数据操作是关键,而Map和List作为两种常见的数据...通过合理地拆分数据,可以充分利用分布式系统的计算资源,加快处理速度,同时降低单个节点的压力,从而在大数据挑战中取得更好的性能表现。

    大数据课设.zip

    MapReduce的工作原理是将复杂的计算任务拆分为两个阶段:Map和Reduce。Map阶段将原始数据分割,并在不同的节点上并行处理;Reduce阶段将Map的结果整合,产生最终的输出。这种分治策略使得处理大数据变得更加高效。 ...

    任意的拆分合并工作表,网络搜集,公开免费

    在Excel处理大数据时,有时我们需要将大型工作簿拆分成多个较小的部分,或者将多个工作簿合并成一个统一的文档。这通常是为了便于管理和分析数据。标题提到的“任意的拆分合并工作表”是一个这样的工具,它可以帮助...

    大数据与云计算简答题.doc

    5. 并行计算:如Hadoop MapReduce,将大规模数据处理任务拆分成子任务并行处理。 总结:云计算与大数据是现代信息技术的两大支柱,云计算提供弹性、高效、低成本的资源服务,大数据则通过挖掘海量数据中的价值为...

    大数据系统基础作业

    大数据系统基础作业主要涵盖以下几个核心知识点: 1. **大数据定义与特征**...在这个作业中,可能需要展示对以上知识点的理解和应用,包括编写Hadoop MapReduce程序、设计HBase表结构、进行数据清洗和分析等实践操作。

    C# 大数据 Excel导出

    这里,`data`是包含大数据的集合,`Chunk(batchSize)`方法用于将数据拆分为大小为batchSize的小块。 为了优化性能,可以使用批处理操作和内存管理策略,如延迟计算和延迟加载。此外,还可以利用Excel的样式和公式...

    大数据开发笔试.docx

    用户提交作业后,MapReduce将任务拆分为多个输入分片,然后将Map任务分配到各个DataNode执行,生成键值对。接下来,Shuffle阶段对键值对进行重新排序,把相同键的值分发给同一个Reduce任务,不同键的值则分发给不同...

    大数据题库_大数据_大数据;_hive;_hbase等;_hadoop;_

    大数据是21世纪信息技术领域的重要里程碑,它涵盖了海量数据的收集、存储、处理和分析等多个环节。本题库主要关注大数据技术,特别是Hadoop、HBase和Hive等组件的应用和理解。 首先,Hadoop是Apache软件基金会的一...

    大数据技术原理与应用教程.zip

    1. MapReduce:Hadoop的MapReduce编程模型是大数据处理的核心,它将大型任务拆分为小任务在集群中并行执行,Map阶段进行数据分区和预处理,Reduce阶段进行结果聚合。 2. Spark:Spark是另一种大数据处理框架,相比...

    大数据术语

    分布式系统是一种计算方式,它将任务拆分成多个部分,由网络上多个计算节点并行处理,然后将结果汇总。这种系统设计使得大数据处理成为可能,因为它能够高效地处理和分析超出传统单机处理能力的数据量。 数据仓库是...

Global site tag (gtag.js) - Google Analytics