3亿数据快速检索实现 -

天机老人

浏览: 151430 次
性别:
来自: 北京

最近访客更多访客>>

露紫枫

daxiongzhe1

jacket233

哒哒哒点

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

3亿数据快速检索实现

博客分类：

Java

全文检索数据结构 Oracle lucene SQL Server

　　上周有个需求，就是要做一个检索库：
　　１　３亿个手机号码，并且每个号码２０个左右的属性例：地区，订阅等信息。
　　２　在最短的时候内select出来（５分钟，１０分钟）[最重要]
　　３　允许更新。对这些号码进行发送信息后，状态改变。[可以让他慢慢更新]

　　和几个同事讨论了一下，具体要注意以下几点：
　　１　如果发送下去状态改变，但是只发送一半，但状态改变了如何办？
　　２　如果多个产品线一起下发，状态会不会混乱。
　　解决以上第二个问题，决定采用，队列等待的方式。第一个问题没想到好的解决办法，回滚也想过了，但感觉不是很现实！

　　解决方案：
　　经过实验500w条的数据在用plsql直接select，只需要０.２秒，所以总体采用分表的方式，每500w条分一个表，然后同时查询！

　　但总感觉不是很好，抛砖引玉（真的很砖

）。不知道大家有没有更好的解决方案！

-----------------------------------------重新描述一下需求-------------------------------
很多人说需求不是很的清楚，这里重新整理了一下！
不过要注意的是数据库里已经有3亿个手机基数了！

一．号码入库。
不定期会有新的号码需要入库，入库需要记录号码的常规属性，如：手机号，省份，城市，入库时间，手机卡类型，是否支持彩信，号码来源情况等。

二．入库手机号源文件管理
入库手机号源文件要以文件形式保存在服务器上。

三．按需要提取号码（最关键部分）
要按照需求提取所需的号码。

例如：
提号要求：
1.此号码非黑名单用户。
2.此号码为的订购和退订用户。
3.此号码2个月内没有活动。
4.省份要求：辽宁，云南，广东
5.号段要求：137和138和139号段
6.数量要求：每个省10w
7.是否支持彩信：是（是，否，忽略三种情况）
……

最后，符合条件的号码，按照固定格式（每个手机号占一行），形成文本文件，将此文件测试号码，是否需要状态报告等信息形成最终可发送文件并提供下载功能，同时记录本次提取信息（发送时间，发送标识等）
注：文件格式如下：
139***85185#09#0
139***71283
139***33190
第1列：手机号
第2列：产品类型（#09）
第3列：是否需要状态报告（#0）

四．统计功能
一．号码情况统计
1.统计当前号码总量。
2.按照2个基本要求，统计现在库中可以使用的号码数量。
注：统计需要显示，全国总量，各省总量，各省省会总量，各省去除省会总量，各省7天未下发总量（省会与其他城市分开显示），各省可以发送总量（省会与其他城市分开显示，所以单独列出来）。

二．发送产品统计
1.按时间段、业务线等统计发送产品的情况，如：发送时间，最终发送文件等

五．黑名单及特殊号码管理
1. 添加黑名单
2. 去除黑名单
3. 过滤黑名单
4. 查询黑名单

以上除黑名单外都是迫切需要的，黑名单功能可以以后完善。

分享到：

电信行业Http接口(通道)设计思路与实现过 ... | Hibernate在oracle上主键生成策略连锁配置 ...

2009-05-23 22:14
浏览 4568
评论(83)
论坛回复 / 浏览 (83 / 46639)
分类:企业架构
查看更多

23 楼 kunee 2009-05-25

抛出异常的爱写道

试试数据的hash 分块根据某几位的hash值决定数据所在的DB...3亿对发号地区.对发号时间多次规范之后....

抛总的意见很中肯

22 楼 shuai45 2009-05-25

　"经过实验500w条的数据在用plsql直接select，只需要０.２秒",

这个听起来有点夸张。即使实现了0.2秒的查询，但也只是你单个测试，如果遇到批量测试，或者并发，你这个0.2 我估计会变成200秒或者2000秒。

不过500W 0.2秒要是真的话，已经很牛了。请教经验

21 楼 zgjzc 2009-05-25

按时间，地区分成小表，再不行就分库

20 楼抛出异常的爱 2009-05-25

天机老人写道

javaTo 写道

照异常的方法，hash后分段置于不同的库（服务器）中，然后去定位操作

hash分段我们也想过，但是量太大了！
查询好像目前而言好解决一点！查出来的数据还需要导出工作！

更新好像变的又点难度了！

多个库多个磁头..写的总是快些吧.

19 楼 longlongriver 2009-05-25

做范围分区，分区表可以很好解决这种大数据量的查询问题！

18 楼天机老人 2009-05-25

javaTo 写道

照异常的方法，hash后分段置于不同的库（服务器）中，然后去定位操作

hash分段我们也想过，但是量太大了！
查询好像目前而言好解决一点！查出来的数据还需要导出工作！

更新好像变的又点难度了！

17 楼天机老人 2009-05-25

ansjsun 写道

经过实验500w条的数据在用plsql直接select，只需要０.２秒??????????????
楼主怎么实现的啊>?????不可能吧 ..我感觉得几分钟

一查就是十几万条以上！

更多的是百万条一查的！

16 楼 congjl2002 2009-05-25

ansjsun 写道

经过实验500w条的数据在用plsql直接select，只需要０.２秒??????????????
楼主怎么实现的啊>?????不可能吧 ..我感觉得几分钟

索引，分区之后,差不多吧,还有你当然不能用1g内存，1个CPU的pc当服务器

15 楼 superdandy 2009-05-25

用procedure，不过缺点是破坏了设计，同时数据库参与了业务逻辑。好处是节省了大量的I/O时间。

14 楼 javaTo 2009-05-25

照异常的方法，hash后分段置于不同的库（服务器）中，然后去定位操作

13 楼 whaosoft 2009-05-25

fc6029585 写道

我觉得索引表是个很好的办法!

能在说的更细些吗

12 楼 ansjsun 2009-05-24

经过实验500w条的数据在用plsql直接select，只需要０.２秒??????????????
楼主怎么实现的啊>?????不可能吧 ..我感觉得几分钟

11 楼 ansjsun 2009-05-24

我怕3yi个一个一个update完了一天也过了...分库吧..
多弄几个服务器.根据手机号码..河北一台服务器..河南一台..山东一台..山西一台..

10 楼 vlinux 2009-05-24

真的不能分批提交

9 楼 jcs7575 2009-05-24

分批查分批提交吧……

8 楼 vlinux 2009-05-24

是不能分批
交互一次update，这个没有什么好偷懒的

7 楼 laiseeme 2009-05-24

手册不就是让你分批么？
比如100条100条的update。。。

6 楼 vlinux 2009-05-24

如果你真的用文档手册里面的批量提交方法去做，3亿条数据会让你的数据库down下来，因为你的数据库没足够的回滚段。

应该分批提交

特别是给这些号码发送信息的时候，我觉得更应该在收到短信网关回执的时候update一条的，否则批量update，如果其中发生什么问题导致回滚了，程序重启后继续处理，那时就会有客户收到重复的短信了

5 楼天机老人 2009-05-24

laiseeme 写道

天机老人写道

按照我们的方案，大批量的查是没啥问题！但是大批量的更新非常成问题！
速度实在是难以想象！每更新一条就要开启关闭一次事物！

所以还是想听听大家的意见！

汉
你去查查文档手册，里面有批量更新的方法。。。。

好的谢谢！

4 楼 laiseeme 2009-05-24

天机老人写道

汉
你去查查文档手册，里面有批量更新的方法。。。。

« 上一页 1 2 3 4 5 下一页 »

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

3亿数据快速检索实现

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

3亿数据快速检索实现

评论

发表评论

相关推荐

电信行业Http接口(通道)设计思路与实现过程

Hibernate在oracle上主键生成策略连锁配置问题（基于注解）

ＳＳH下数据库连接方式

免安装Oracle运行pl/sql developer

Http的客户端与服务端工具

Hibernate主键生成native，identity不可用,increment可以

最近访客更多访客>>