`
waldenlake
  • 浏览: 17176 次
  • 性别: Icon_minigender_1
  • 来自: 南京
文章分类
社区版块
存档分类
最新评论

mysql 百万级数据插入更新速度问题

阅读更多
大家好^^

我现在正在作毕业设计 题目是构建一个搜索引擎

现在已经实现了crawler,代码全是自己写的,没有参开其他的open source,所以完全没有学习人家的开源的思想,比如nutch,然后再所以没有用文件作url的库,用的是mysql 5.0的innodb表,数据库中一共有12张表,分别是vUrls(以访问的url),urls_0到urls_10(这11张表代表了11中不同权重的未访问的url)。(还是自己懒,写文件还要多代码,现在已经代码比较乱了)。

表结构:
1. 未访问表中有MD5和url字段,其中MD5字段是char(32)类型、主键,url是TEXT类型。
2. 已访问表中有ID(自增、主键),MD5和url(类型同上)

操作主要集中在未访问表上,己访问表现在只是用来看看,程序中还是放在内存中。(以下未经说明针对未访问表)

程序中开了多线程通过socket下载网页,一个线程专门解析hyberlink,一个线程专门储存网页(文件形式),开了11个线程(11个权重)并发将解析出来的超链存入数据库。

1. 存入数据库前,这些url先放入一个阻塞队列,满100个时,batch进数据库。
2. 为了削去重复的url我在程序中使用了 replace语句,保证插入数据库的url是唯一的。
3. 有两个队列轮流充满待访问的url共socket提取下载,当一个空的时候另一个从数据库中提取 <100 个url充满。这样轮流让socket线程提取,轮流充满,保证socket线程不断。这里的逻辑是从权重最大的表开始看看如果记录条数>0(select count(*)),就select...limit 100 ,只取一张表的数据,不管取出的记录有没有100个,有就行,然后根据MD5把这些记录删掉.程序稳定后(我指uv.url表中的数据量 > 100,最多也就程序运行开始后十几秒的事),就都是batch出100个了。

现在的问题是:
在下载了 >10^5 张网页的时候(最大的权重url表中的行 >10^6),数据库GRUD速度明显跟不上了,因为innodb是锁行的,所以一个时候并发的查询多的时候会锁较长时间,这时候线程会waiting,有次测试 ,竟然数据库被索直到timeout。

然后自己看mysql的manual,优化,改了buffer-pool-size,又把死锁退出的时间调长了点,说实话,数据库这东西的优化是细活,硬活,而且我一直没存过海量,实在是看不出,也想不出什么好的优化方法。

大家看看,都来讨论讨论。

PS 1:
1. 其实要是search一个区域的网站的话,比如我们学校的所有网站的所有网页,我想能下载下150000张的网页,就够了吧(说错了 别扔我)。但是我想把毕设做得好些,想搞定网页数据量 10^6 的(天网那群人写的那本什么书上写到原始的天网就单机下载索引了 10^6 个网页)
2. 请问大家这样用数据库的方案可行不?(我指有教学性质的 单机版的 毕业设计式的 SE)

PS 2:
我使用数据库做urlDB的原因其实就是与其自己写代码控制urlDB,不如相信数据库的能力,比如并发的管理,GRUD的优化能力 etc. 没想到现在竟然反被束缚了,其导致的后果就是网页的下载速度从占满带宽到由于数据库的查询访问而将到 <20% 的地步。
分享到:
评论
13 楼 waldenlake 2008-02-08  
引用

记得北大天网在这方面还特自豪,印象中采用了所谓的最小距离法......

看天网那本书这个部份时,其实觉得这个方法还不错
12 楼 waldenlake 2008-02-08  
引用

如果lz只是做搜索引擎的毕设,我建议楼主把注意力集中在搜索本身上,而不是网络爬虫上。毕竟在你通过爬虫抓取到html页面后还有大量的工作要做。

很好的建议,已经和导师联系缩小了题目的范围。
引用

content方面不用太过注重它的retrieval,而应该在它的refinement方面考虑多一点。

已经看了大量的paper了^^


11 楼 wainwen 2008-02-04  
xiaolin0105 写道

...
总之,数据库其实可以不用,把精力集中在index, query和relevancy上面,这才是search的core。


很中肯的建议

感觉LZ的毕业设计题目有点大,应该和导师协商,是将所有的搜索问题都囫囵过一遍,还是集中在某个更具体的问题上。其实光是爬虫问题,就足够写N篇论文了

搜索中的查重问题也有很多种,url是比较基本的,还有一个更有意思的查重问题,就是页面内容的查重。特别对国内,一篇好文章到处转载,小处略有不同,大处基本一样,作为搜索引擎需要识别出这类一气化三青来。记得北大天网在这方面还特自豪,印象中采用了所谓的最小距离法:根据词频,计算出两篇文章的距离,距离足够近,就认为两者是同一篇文章的不同变体。这种对比所需计算量更大,不知道天网能搞出什么不传之秘来^_^


10 楼 xiaolin0105 2008-02-04  
javaeyes 写道
看你喜欢闭门造车。
多看看别人的实现,也许会好很多。比如你这个url去重,用Bloomfilter的话比MD5放内存就要好多了。


你这种人多了对中国的未来是个打击。不管好坏,lz至少去试过了,自己思考了,虽然可能会走弯路,但是这是学习过程中不可避免的,如果我是lz的导师,我会很欣赏这样的学生。

我不敢说能给lz什么建议,只是说点自己小小的看法。曾经在一家搜索引擎公司实习过一段时间,公司的搜索平台是不用数据库来保存url的,根本就没有rdb,所有东西都是存储在自己的file system上的。

如果lz只是做搜索引擎的毕设,我建议楼主把注意力集中在搜索本身上,而不是网络爬虫上。毕竟在你通过爬虫抓取到html页面后还有大量的工作要做,content方面不用太过注重它的retrieval,而应该在它的refinement方面考虑多一点。。。这里有篇search engine的简单介绍,我觉得还可以,http://www.infotoday.com/searcher/may01/liddy.htm

总之,数据库其实可以不用,把精力集中在index, query和relevancy上面,这才是search的core。
9 楼 guile 2008-02-03  
首先对Url匹配是耗时的,一个简单的改进是换成MD5匹配,当然如果你喜欢,还可以考虑Bloomfilter算法,不过区区几百万数据也范不着。反正无论如何应该避免url匹配。

url的md5放到大列表里恐怕也有些问题,删除、增加的开销都比较大,最终还是会才用哈希或者查找树的方式,100万md5也不是30M的事情,假设你用的java,32位的MD5如果按字符串的格式存储,每条需要的存储空间约是80个字节,加上哈希的开销,大约1万条会耗费1M,所以内存开销大概会在180M到200M之间。

访问磁盘是不对的,无论如何都应该避免大量的随机磁盘读取,而且也没有必要考虑加锁,加锁的代价可能会大于倒霉时一个网页抓了两遍的代价。简单的做法是扔掉RDBMS,这东西负担太多了,完全没有必要使用它。
8 楼 ztka 2008-01-17  
楼主,你大概每秒插入多少数据?
7 楼 javaeyes 2008-01-15  
看你喜欢闭门造车。
多看看别人的实现,也许会好很多。比如你这个url去重,用Bloomfilter的话比MD5放内存就要好多了。
6 楼 waldenlake 2007-11-14  
昨天把mysql5.0卸了  换了5.1
看看新版的partition的by key 怎么样,原理也就是把主键哈希,将一个表的数据分成若干子表。
但是性能怎么样,还待测试。
5 楼 nihongye 2007-11-14  
增加一个url的hashcode字段, 就算几百万数据,照样飞快
4 楼 waldenlake 2007-11-12  
waldenlake 写道
nihongye 写道
引用
为了削去重复的url我在程序中使用了 replace语句,保证插入数据库的url是唯一的。

问题应该出在这条语句上,对url的全匹配肯定耗费时间。


我也这么认为,不知道如果从数据库端优化的话有没有什么好方法?

我现在想的是把所有未访问的url的MD5开一个大列表放内存中,算了算一百万也就30M。
但是这样还是有点不行,毕竟现在数据库中就有了5*10^6个url,要是将他们的MD5放到mem,还是大。
当然,我可以在程序中控制url的数量,比如,是否在指定的IP段中,是否指定的请求头内容。
不过link还是大
3 楼 waldenlake 2007-11-12  
nihongye 写道
引用
为了削去重复的url我在程序中使用了 replace语句,保证插入数据库的url是唯一的。

问题应该出在这条语句上,对url的全匹配肯定耗费时间。


我也这么认为,不知道如果从数据库端优化的话有没有什么好方法?

我现在想的是把所有未访问的url的MD5开一个大列表放内存中,算了算一百万也就30M。
2 楼 rtdb 2007-11-12  
用数据库实现队列,性能上不会太理想。
1 楼 nihongye 2007-11-12  
引用
为了削去重复的url我在程序中使用了 replace语句,保证插入数据库的url是唯一的。

问题应该出在这条语句上,对url的全匹配肯定耗费时间。

相关推荐

    mysql百万级测试数据下载 300W条

    本文将围绕“mysql百万级测试数据下载 300W条”这个主题,深入探讨如何处理和利用这样的大数据量进行测试。 首先,`test.sql`文件是一个MySQL数据库的SQL脚本文件,通常包含创建表结构、插入数据等操作。在这个场景...

    mysql大批量数据插入

    使用批量插入语句是实现 MySQL 大批量数据插入的有效方法,能够提高数据插入的速度和效率。 知识点: 1. MySQL 大批量数据插入的需求和挑战 2. 使用批量插入语句实现大批量数据插入 3. 批量插入语句的格式和使用...

    提高mysql插入数据的速度.pdf

    - 尽管这不在文档中直接提及,但提升磁盘I/O性能对于提高MySQL插入速度同样重要。这包括优化文件系统、使用更快的磁盘或者使用SSD等措施。 9. 使用第三方工具监控和管理: - 使用如Unix的top、Windows的任务管理...

    MySQL官网测试数据上百万条数据sql文件

    在本资源中,我们有一个名为"MySQL官网测试数据上百万条数据sql文件"的压缩包,它包含了一个或多个SQL脚本,这些脚本设计用于在MySQL数据库中创建并填充大量的测试数据。 SQL(Structured Query Language)是用于...

    C#在MySQL大量数据下的高效读取、写入详解

    本文将探讨如何高效地读取和写入大量数据,主要分为三个步骤:解决读取问题、数据处理和数据插入。 ### 第一步:解决读取问题 1. **避免使用重型ORM框架**:如Entity Framework和NHibernate,这些框架在处理大数据...

    Mysql构造百万条测试数据

    1. 生成思路:利用 MySQL 内存表插入速度快的特点,先利用函数和存储过程在内存表中生成数据,然后再从内存表插入普通表中。 知识点:MySQL 的内存表(Memory Engine)是一种特殊的存储引擎,可以将数据存储在内存...

    nodejs封装好的mysql数据库模块,带mysql连接池以及百万测试数据

    本模块基于Node.js实现了对MySQL数据库的封装,利用了mysql连接池来优化性能,并且包含了用于测试的百万级数据,确保了在大数据量场景下的稳定性和效率。以下将详细介绍该模块的关键知识点: 1. **Node.js与MySQL**...

    10倍以上提高Pentaho Kettle的MySQL写入速度

    7. **数据分区**: 对于非常大的表,可以考虑使用分区策略,如范围分区、列表分区等,以提高数据插入和查询速度。 8. **避免回滚段**: 如果数据导入允许,可以关闭自动提交,减少回滚段的使用,以减少写入开销。 9....

    向数据库插入blob数据实例源码--在mysql中通过

    本实例将详细介绍如何在MySQL数据库中插入Blob数据,并提供源码示例。 1. **Blob类型介绍** MySQL中的Blob类型有四种变体:TinyBlob、Blob、MediumBlob和LongBlob,分别对应不同的存储大小限制。TinyBlob最多存储...

    C++操作MySQL大量数据插入效率低下的解决方法

    通常来说C++操作MySQL的时候,往Mysql中插入10000条简单数据,速度非常缓慢,居然要5分钟左右, 而打开事务的话,一秒不到就搞定了! 具体实现代码如下: #include #include #include #include "mysql.h" #...

    提高mysql插入数据的速度归类.pdf

    MySQL 数据库在处理大量数据插入时的性能优化是数据库管理员和开发者关注的重要议题。以下是一些针对 MySQL 插入速度提升的关键策略: 1. **批量插入**:在 MyISAM 引擎下,推荐使用 `INSERT INTO table_name ...

    mysql 测试数据集,单表200万条数据

    - INSERT与UPDATE:了解如何高效地插入和更新大量数据,避免全表扫描。 - DELETE:在删除数据时注意效率,避免影响整个表的性能。 5. 数据库事务: - 事务处理:了解ACID(原子性、一致性、隔离性、持久性)特性...

    如何向mysql中插入数据?

    要将数据插入 MySQL 数据库,需要遵循一定的步骤。下面将详细介绍如何向 MySQL 中插入数据。 首先,需要打开 MySQL 命令行编辑器,连接到 MySQL 数据库。然后,使用所要操作的数据库,先显示一下数据库中的表。显示...

    阿里的EasyExcel+Mysql方式实现数据库数据导出生成exce

    在IT行业中,数据导入导出是一项常见的任务,特别是在企业级应用中,用户可能需要将大量数据从数据库导出为Excel格式,以便于分析、编辑,然后再导入回数据库进行更新或新增。阿里开源的EasyExcel工具结合SpringBoot...

    45-MySQL单表2000万数据查询慢解决方案1

    数据插入 我们可以按照分区的原则,向表里插入数据。每个分区有4条数据,查询结果正确。 分区删除 我们可以使用命令`alter table tuser drop partition p1;`删除第一个分区,分区内的数据也将被删除。 新建分区 ...

    一个工具类搞定批量插入增加数据到Mysql数据库

    只要学我一样编写这么一个工具类便可以实现批量插入多条数据,百条,千条,万条,后期还会继续优化增加数据时的速度!有点代码基础的保证能看懂,此项目已经有了前端界面你可以直接的导入然后运行测试既可以了,表...

    python工具-excel批量导入mysql (几千万数据半小时可搞定)

    本篇文章将详细讲解如何利用Python工具实现Excel数据的批量导入到MySQL数据库,以及如何优化这一过程,使得几千万的数据能够在半小时内完成导入。 首先,我们需要了解Python中用于操作Excel的主要库——pandas。...

Global site tag (gtag.js) - Google Analytics