对于单表数据超过1亿的数据查询时候，必须默认时间段查询条件 - 老焦的blog-奋斗12年IT虫子所思所想所感 - ITeye博客

`

jiaoronggui

浏览: 1345214 次
性别:
来自: 合肥

最近访客更多访客>>

dy.f

yao00jun

jauncehome

a4441135

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: 项目管理软件-redmin...
浏览量：117075

: IT职业规划
浏览量：200458

文章分类

社区版块

存档分类

最新评论

Caelebs：上海交大?ms工作六年?感觉好屌啊我厂一堆10K 20K 98 ...
IT人为什么难以拿到高薪？
小桔子：如果加入listView 在滑动的时候偶尔会空指针异常，加入P ...
Android组件推荐-侧滑效果DragLayout
wangyonglin1123：小公司是锻炼人的不管是业务技术都会有突飞猛进的进度进步 ...
程序员在大公司工作好？还是在小公司工作？我的经历和建议[ZT]
wangyonglin1123：必须有所专长技术和业务都需要你必须在一个行业够牛逼
程序员的出路之一，拥有一技之长、打造自己的精品、更广阔的市场【ZT】
luhuajcdd：这个不错
StarUML 不能在64位的windows7下运行，提示错误的解决方案

对于单表数据超过1亿的数据查询时候，必须默认时间段查询条件

博客分类：

项目管理
Oracle

阅读更多

项目基本情况

最近系统碰到一个非常头疼的问题，数据库采用oracle10G，主备机模式，采用shareplex做数据同步，一个表销售数据近2亿数据，提供16万企业做服务；

问题描述

原始设计时候，给企业查询小孩搜明细的时候，并没有考虑时间段条件，而是按照企业id号进行查询，在一开始，数据量不大时候，没有任何，当数据接近1亿的时候，就出现大问题了，因为有一部分企业的数据量非常大，导致此单独按照此企业查询明细数据时候，数据量比较大，大概会有接近50万数据，因为没有默认时间段查询，查询结果集非常大，结果导致此明细查询的IO消耗非常大，因为默认只有企业ID条件，不管怎么做索引，都无法解决此sql的io性能问题，最终解决方法就是，默认增加时间段条件，默认只查询该企业最新一月时间明细数据，然后企业id和时间段的联合索引才解决此问题，真是一个sql，消耗死一台数据库；

结论

在做类似过亿数据量表的应用时候，如果涉及到明细数据查询时候，必须增加默认查询时间（一个月或者按照淘宝的三个月），以减少数据库的IO消耗

0
顶

0
踩

分享到：

买书到底上哪个网站，china-pub，当当，京 ... | 多发1元年终奖，反而少的1154元-年底不得 ...

2011-12-21 16:40
浏览 3296
评论(0)
分类:研发管理
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive千亿级数据倾斜解决方案.docx: "Hive 千亿级数据倾斜解决方案" Hive 千亿级数据倾斜解决方案是解决大规模数据处理中常见的问题。数据倾斜是指在分布式系统中，某些节点或任务处理的数据远远多于其他节点或任务，这将导致系统性能下降、数据处理...

利用Oracle执行计划机制提高查询性能: 例如，六个表的连接有720种可能，而15个表的连接则超过1万亿种可能。这个过程在大型数据集上会非常耗时，特别是当优化器需要检查所有可能的组合时。为了控制这个过程，Oracle提供了optimizer_search_limit参数，...

Hbase分析报告 (2).pdf: 这种设计使得查询特定列或时间段的数据非常高效，特别适合于实时查询和大数据分析。 Hadoop 文件系统（HDFS）是 HBase 的基石。HDFS 是一个容错性强、适应廉价硬件的分布式文件系统，它采用了主从结构，由一个目录...

网经社：2022年（上）中国数字教育投融资数据报告(1).pdf: 这份报告不仅是对过去一段时间内中国数字教育投融资活动的记录，也为中国数字教育行业提供了重要的参考和洞见，有助于理解行业趋势和未来发展。值得注意的是，报告在知识产权、数据使用、免责声明等方面做了明确的...

2024年java面试题-ElasticSearch面试题集: - **数据增长**：每天的数据增量达到 1 亿条以上，平均每个通道的数据量保持在 150GB 以内。 - **调优手段**： - **设计阶段**： - **基于日期模板创建索引**：使用 roll over API 来滚动索引，以确保单个索引...

mysql字段详解: - **原因：** INT 类型能够存储大约21亿条数据，这对于大多数应用来说已经足够大。相比之下，MEDIUMINT 类型虽然占用空间较少，但是其最大存储量仅为千万级别，因此对于需要较大主键空间的应用而言，INT 类型更加...

Elasticsearch的大杂烩分享_赖鸿智.pdf: - **搜索服务架构介绍**：欢聚时代的搜索服务由20个节点组成，实现了双机房互备，拥有30+个索引，200+个分片，支持超过10亿条记录的数据量，峰值处理能力达到每秒1k个请求和每秒3w次更新。 - **实时大数据查询引擎**...

MySQL经典面试题.docx: MySQL是互联网领域中广泛使用的数据库管理系统，其性能...开放性问题：针对6亿与3亿表的查询，可能使用连接优化，如JOIN ORDER、索引、子查询优化，甚至使用并行处理和分区技术，结合EXPLAIN和索引策略，找出最佳方案。

2012十月百度，阿里巴巴，迅雷搜狗最新面试七十题: - **并行查询**：对于每个查询，同时向所有机器发送请求，利用二分查找法减少查询时间。 - **并发读取**：利用多核CPU并行读取内存中的数据。 #### 五、随机数生成与概率分析 **6. 随机数生成** - **背景**：...

redis集群在腾讯游戏的应用及演进: 4. **纯内存加持久化**：所有数据默认存储在内存中，以确保高性能；同时也支持两种持久化方式：RDB（Redis Database Backup）快照和AOF（Append Only File）日志。 5. **丰富的数据结构**：除了基本的字符串类型外，...

MySQL最佳实践之分区表基本类型: 当数据库中存在包含数亿甚至数十亿记录的表时，传统的数据清理方法（如带WHERE条件的DELETE语句）会显著增加数据库的负担，且无法有效地减小数据文件的大小。分区表的引入解决了这一问题，尤其是对于基于时间的历史...

2021-2022计算机二级等级考试试题及答案No.2689.docx: 潜伏性意味着病毒可以在一段时间内不表现出来，等待特定条件触发。正确答案是C。 3. 变量作用域：在命令窗口中执行`X=5`后，该变量的作用域默认为全局，即在整个程序中都可以访问。正确答案是A。 4. 字符串处理：`...

Megatron.docx: 数据并行是指把数据切分为多个大小相同的块，并把不同的数据块放到不同的GPU上训练，每块GPU完成块数据的训练后把结果同步到特定GPU上。该方法适合小模型训练，每块GPU上有一个全量模型。模型并行是指把大模型的...

Redis面试知识点.pdf: #### 37、假如Redis里面有1亿个key，其中有10w个key是以某个固定的已知的前缀开头的，如果将它们全部找出来？使用`KEYS pattern`命令进行查找，但该命令在生产环境中应谨慎使用，因为它可能会影响性能。更好的方法...

2021-2022计算机二级等级考试试题及答案No.12240.docx: 17. SQL查询命令：在Access中，显示指定条件的记录应使用`LIST FIELDS 姓名,工资 FOR 年龄职称='教授' OR 职称='副教授'`。 18. 计算机使用注意事项：长期闲置不用的计算机应定期开机运行，防止硬件老化，所以选项A...

WinRAR_4.0.exe: 设置压缩文件时间为最新的文件: rar ch -tl files.rar cw 写压缩文件注释到指定文件。输出文件格式依赖于 -sc 开关。如果输出文件名没有指定，注释数据会被发送到标准输出设备。例子: 1) rar cw ...

2011百度笔试题: - 对于特定时间范围的查询，可以预先计算并存储这些结果，以便快速检索。 ### DBA笔试知识点解析 #### 1. Linux中优先级和优先数的关系 - **概念**：在Linux中，每个进程都有一个动态优先级（nice值），默认为0...

大数据应用的中存储和处理问题剖析46.pptx: 例如，纽约证券交易所每天生成1TB的交易数据，Facebook存储了数十亿张照片，占用PB级别的存储空间，互联网档案馆的数据每月以20TB的速度增长，而大型强子对撞机每年产生15PB的数据。面对如此庞大的数据量，传统的...

java高级工程师面试总结: - **1亿个整数的倒序输出**： - 可以通过排序后再倒序输出的方式实现。 - 使用外排算法，将数据分割成小块，分别排序后再合并。 - **找出给定字符串中最长回文**： - 使用动态规划或中心扩展算法。 - 动态规划...

Global site tag (gtag.js) - Google Analytics