全球第一牛站google,能够如此快速的对搜索的关键字做出反映,让人赞不绝口,在看google earth,goole
map等大量的图形数据。这些数据如何存储的呢?一直让人感觉很神秘。相传,google最牛的技术,就是让一大批普通机器,配置成大型的集群,来应对
google的海量存储。
但,具体如何存储呢?
google的存储为GFS(Google file system)分布式存储文件系统,多读少写的数据如大索引文件,google map地图文件,
静态网页等采用bigtable来存储,bigtable是一种弱关系型存储系统,建立在GFS之上,字段并不满足关系数据库范式中的原子性等,而是可根
据时间戳来存储单个数据的多版本,列分为列簇(column family),可把一系列相关的列定义为一个列簇。GFS的数据存储是分块(block)
存储的,一个文件被分成64M/block的若干块,可同时往多个数据服务器插入,而下载时,可同时从多个数据服务器拿一个文件的不同部分,这就提高了数
据的吞吐效率。此外GFS的文件采用分段压缩机制,即若干block作为一个压缩单元进行压缩,而非整个文件进行全压缩,这样可以在读取文件时边读边解压
缩。bigtable中也可以建立列的索引,理想情况下一次I/O预先加载索引,然后再一次I/O定位磁盘中的数据,然后作顺序读来载入数据。这样比一般
关系数据库的载入速度要快,如果我没有记错的话,一般关系数据库定位数据至少需要4次左右的磁盘I/O。
GFS适合海量数据存储,而bigtable适合弱关系型数据的存储。
至于百度,百度在数据操作上,网站方面用的mysql,但百度在mysql的源码基础上做了一些特定的优化。
在数据存储介质上,百度有些地方用的是SD卡,但SD卡同样只适合于多读少写的应用场合,否则SD卡寿命很快耗尽,这样比物理操作的磁盘要高效很多。
任何东西要看具体应用来讲,关系型数据库适合于逻辑,业务复杂的企业级系统。对稳定性,可扩展性,安全性,容错性,事务性要求比较高的场合采用oracle,sqlserver等绝对没错。
分享到:
相关推荐
本文主要探讨搜索引擎,特别是谷歌和百度这两个全球领先的搜索平台,并通过实例解析它们的工作原理和技术细节。 首先,我们要理解搜索引擎的基本工作流程,这通常包括爬取、索引、排名和检索四个步骤。搜索引擎会...
【标题】"搜猫搜索引擎源码|仿百度搜索引擎源码"揭示了这是一份与搜索引擎相关的源代码,特别提到了“搜猫”品牌,并模仿了知名的百度搜索引擎的某些功能或设计。这个源码可能是用于学习、研究或者开发自己的搜索...
在实现"模拟百度google搜索引擎"的过程中,开发者还会面临性能优化的挑战,比如分布式索引和查询处理、缓存策略等,以应对大规模数据和高并发访问。 总的来说,这个项目涵盖了网络爬虫技术、数据预处理、索引构建、...
1. **云搜索引擎**:云搜索引擎是一种特殊的搜索引擎,专门针对云存储服务中的内容进行搜索,如百度云盘、Google Drive、Dropbox等。它能够快速索引并提供云存储中的共享资源,使得用户无需登录个人账户即可浏览和...
本项目主要关注的是使用Python3.6和Scrapy框架构建针对Bing和百度这两个主流搜索引擎的爬虫。下面将详细介绍这两个搜索引擎爬虫的相关知识。 首先,Python3.6是Python编程语言的一个版本,它具有强大的标准库,尤其...
在给定的压缩包文件中,包含了一系列针对不同搜索引擎的关键字排名查询ASP脚本,如百度、谷歌、搜狗、360、有道和Yahoo。这些脚本可以帮助开发者或者SEO(搜索引擎优化)专家了解其网站或特定关键字在各大搜索引擎中...
总之,这个工具是网站优化和搜索引擎友好性提升的重要助手,它集成了ASP技术,可以适应不同的网站环境,通过监控搜索引擎蜘蛛的活动,为网站提供有价值的反馈,帮助提升网站在百度和谷歌等搜索引擎中的可见性。
1. **全文搜索引擎**:这类搜索引擎会直接搜索其自身建立的网页数据库,提供全面的关键词搜索,如Google和百度。它们的优点是搜索结果全面,可以使用布尔运算符和短语搜索,但缺点是可能会返回大量不精确的结果。 2...
在本篇文章中,我们将深入探讨并对比两大全球知名的搜索引擎——Google与百度,在用户搜索习惯方面的差异及特点。本文将从搜索引擎的基本概念出发,逐步解析两者的技术实现方式、排名算法、索引策略及其对用户体验的...
"搜索平台"可能是指该系统支持多搜索引擎整合,用户可以通过一个统一的接口访问不同的搜索引擎,如百度、谷歌、必应等,实现一站式的搜索体验。"网址快速搜索"和"快速在不同搜索引擎上找到结果"暗示了它的速度优势,...
搜索引擎是一种帮助用户在网上快速、方便、准确地找到所需信息的工具,它通过一定的策略在互联网中发现、搜集信息,加工整理和组织存储后,为用户提供检索服务。搜索引擎主要以网页索引数据库为基础,对搜集到的信息...
在本项目中,我们将讨论如何实现一个仿百度、Google、谷歌的搜索引擎自动补全功能。 首先,自动补全的核心在于关键词匹配算法。常见的算法有Trie树(字典树)、Levenshtein距离(编辑距离)和基于TF-IDF的文本...
4. **查询/存储技术**:搜索引擎需要高速的查询机制和优化的存储方案,如内存存储和硬盘存储的结合,以应对大规模数据和高并发查询。 **三、系统架构** 搜索引擎系统通常包括以下几个组成部分: 1. **爬虫**:...
典型的全文搜索引擎包括谷歌(Google)、雅虎(Yahoo)、AltaVista、Teoma、WiseNut等国际知名平台,以及百度(Baidu)、北大天网、中搜等国内知名品牌。 从实现角度来看,全文检索搜索引擎可以分为两类:一类是...
华中科技大学的这门课程旨在深入探讨搜索引擎的工作原理和技术细节,对有志于进入谷歌、百度等知名搜索引擎公司的学生或对此领域感兴趣的人士来说,是一份宝贵的资源。 【网页抓取】 搜索引擎的第一步是网页抓取,...