向大数据数据库中插入值时，还要判断插入是否重复，然后插入。如何提高效率

tou3921

浏览: 68618 次
性别:
来自: 郑州

最近访客更多访客>>

105199179

日月星辰的程

nxycgame01

xiangxingchina

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

数据结构 lucene Oracle 编程搜索引擎

向大数据数据库中插入值时，还要判断插入是否重复，然后插入。如何提高效率。
每次insert时还要select下，现在数据库里的数据已有几十万条，这样批量插入的时候效率就会很低，不得不这么做，谁有好的方法。
想过把关键内容取来放在map或者list里，然后每次从集合里判断，可这样内存就吃不消了。
...........

分享到：

submit | javaMail 群发探讨

2008-09-09 12:38
浏览 29798
评论(123)
论坛回复 / 浏览 (123 / 77148)
分类:企业架构
查看更多

23 楼 jiming 2008-09-10

wolfbrood 写道

方法1：就是先把数据插入一个临时表，然后通过sql找出临时表里面哪些数据在正式表里面没有，然后把这些数据插入正式表。至于怎么找没有重复的数据那就是你的事，数据库存储过程可以完成，也可以写程序一条一条的读出。
这个方法避免了每次插入都要查找一次，但不一样的数据就要插入两次。至于效率问题你可以自己慢慢调优。

这个方法应该是最好的之一

22 楼抛出异常的爱 2008-09-10

tou3921 写道

插入一个临时表.....
之后用一个job
当有重复不动
无重复,插入并删除

这个东西很好写,比java用网络来端口通信快多了.
我以前也写过

21 楼 RyanPoy 2008-09-10

可以利用BerkeleyDB，他是一个map，以key-value值存放在文件里面。能够很快的查询。

20 楼 shengdong 2008-09-10

这个问题我也遇到了目前我就是采用先插后改的方法我想目前几W的数据还是能够负载的吧
而且这个表也只有3、4列关联数据我用PGSQL

19 楼 jacky_926 2008-09-10

前段时间我们的一个项目,经常需要一次导入10-50w的数据，我们的解决办法是：
1.对数据建立唯一索引
2.将数据转换为csv/text文件格式
3.通过java 调用sqlloader直接导入

性能基本上能满足我们的要求，该解决方法缺点：
1.需要在应用服务器端安装ORACLE CLIENT

18 楼 xfxlf 2008-09-10

说了太多废话

1.先select，再insert，消耗多少时间？
2.先insert，判断异常，消耗多少时间？

如果重复的键上有索引，开销多少时间？

之所以重复，就是说明这些字段上需要有唯一性，已经是业务含义的主键了，建立索引是理所应当的。

没数据，莫空谈

最好先在表中插入100万条记录，写个程序，测试下。半天就肯定搞定了

17 楼 snsnx 2008-09-10

MeteorX 写道

Oracle自带的 merge into 语句，不知道是否符合楼主的要求。

merge into肯定不行，比如注册用户时，岂不是要update掉之前的用户？

16 楼 pcwang 2008-09-09

根据你insert的频率和一次性insert的数据量来判断：如果频率不快（比如一天一次），可以采取先select再insert，如果数据量大的话，可以select的时候拼in来批量取。如果频率很快的话，建议还是把关键字保存在内存或memcached中吧，几十万条的数据量应该不大吧，主要的关键字放在内存中应该不会有问题吧（假设一个key占100b（很大了吧）,100w个key也只有不到100M啊）。

15 楼 jasin2008 2008-09-09

先select进行判断，再进行insert，串行化事务，效率怎样没试过。

14 楼 MeteorX 2008-09-09

Oracle自带的 merge into 语句，不知道是否符合楼主的要求。

13 楼 HRoger 2008-09-09

我觉得得取决于你的重复的概率有多大，如果概率非常小的话，建议用异常来处理，如果比较大的话还是采取查询后再插入

12 楼 hocus 2008-09-09

vvgg 写道

hocus 写道

bluemeteor 写道

异常不是这么用滴！

做好索引，select count(*)来判断才是正道

我也同意
异常不应该被用于流程和业务逻辑判断

重复数据也可以看作一种异常吧

感觉有重复数据的几率远小于正常的几率，所以产生异常的代价和每次查询相比应该算小的。

重复数据是否看做异常状态，完全取决与业务

11 楼 wolfbrood 2008-09-09

vvgg 写道

hocus 写道

bluemeteor 写道

异常不是这么用滴！

做好索引，select count(*)来判断才是正道

我也同意
异常不应该被用于流程和业务逻辑判断

重复数据也可以看作一种异常吧

感觉有重复数据的几率远小于正常的几率，所以产生异常的代价和每次查询相比应该算小的。

重复数据是一种业务逻辑，怎么是异常了。能用简单判断语句解决问题就绝不能用异常解决问题，这点道理都不明白吗？异常别滥用。

10 楼 vvgg 2008-09-09

hocus 写道

bluemeteor 写道

异常不是这么用滴！

做好索引，select count(*)来判断才是正道

我也同意
异常不应该被用于流程和业务逻辑判断

重复数据也可以看作一种异常吧

感觉有重复数据的几率远小于正常的几率，所以产生异常的代价和每次查询相比应该算小的。

9 楼 hocus 2008-09-09

freeman_sh 写道

如果数据库支持sequence，用sequence是最佳方案。

如果我应用有多台oracle数据库捏？
如果下一个客户不用oracle，用db2捏？

8 楼 hocus 2008-09-09

bluemeteor 写道

异常不是这么用滴！

做好索引，select count(*)来判断才是正道

我也同意
异常不应该被用于流程和业务逻辑判断

7 楼 freeman_sh 2008-09-09

如果数据库支持sequence，用sequence是最佳方案。

6 楼 javazhujf 2008-09-09

有索引的话单表查询还是挺快地（如果慢的话说明你DB的硬件太差了……），如果想把两次DB访问变成一次的话可以在SQL中追加begin和end，做条件判断。

5 楼 wolfbrood 2008-09-09

vvgg 写道

设为主键，重复捕捉异常

坚决反对这种用法，异常不能这么用，每次异常都会消耗系统很多资源。

方法1：就是先把数据插入一个临时表，然后通过sql找出临时表里面哪些数据在正式表里面没有，然后把这些数据插入正式表。至于怎么找没有重复的数据那就是你的事，数据库存储过程可以完成，也可以写程序一条一条的读出。
这个方法避免了每次插入都要查找一次，但不一样的数据就要插入两次。至于效率问题你可以自己慢慢调优。

方法2：写trigger，在插入之前做一个查询，如果有就抛弃，没有就插入数据

4 楼 bluemeteor 2008-09-09

异常不是这么用滴！

做好索引，select count(*)来判断才是正道

« 上一页 1 2 … 5 6 7 下一页 »

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论