全球第一牛站google,能够如此快速的对搜索的关键字做出反映,让人赞不绝口,在看google earth,goole
map等大量的图形数据。这些数据如何存储的呢?一直让人感觉很神秘。相传,google最牛的技术,就是让一大批普通机器,配置成大型的集群,来应对
google的海量存储。
但,具体如何存储呢?
google的存储为GFS(Google file system)分布式存储文件系统,多读少写的数据如大索引文件,google map地图文件,
静态网页等采用bigtable来存储,bigtable是一种弱关系型存储系统,建立在GFS之上,字段并不满足关系数据库范式中的原子性等,而是可根
据时间戳来存储单个数据的多版本,列分为列簇(column family),可把一系列相关的列定义为一个列簇。GFS的数据存储是分块(block)
存储的,一个文件被分成64M/block的若干块,可同时往多个数据服务器插入,而下载时,可同时从多个数据服务器拿一个文件的不同部分,这就提高了数
据的吞吐效率。此外GFS的文件采用分段压缩机制,即若干block作为一个压缩单元进行压缩,而非整个文件进行全压缩,这样可以在读取文件时边读边解压
缩。bigtable中也可以建立列的索引,理想情况下一次I/O预先加载索引,然后再一次I/O定位磁盘中的数据,然后作顺序读来载入数据。这样比一般
关系数据库的载入速度要快,如果我没有记错的话,一般关系数据库定位数据至少需要4次左右的磁盘I/O。
GFS适合海量数据存储,而bigtable适合弱关系型数据的存储。
至于百度,百度在数据操作上,网站方面用的mysql,但百度在mysql的源码基础上做了一些特定的优化。
在数据存储介质上,百度有些地方用的是SD卡,但SD卡同样只适合于多读少写的应用场合,否则SD卡寿命很快耗尽,这样比物理操作的磁盘要高效很多。
任何东西要看具体应用来讲,关系型数据库适合于逻辑,业务复杂的企业级系统。对稳定性,可扩展性,安全性,容错性,事务性要求比较高的场合采用oracle,sqlserver等绝对没错。
分享到:
相关推荐
本文主要探讨搜索引擎,特别是谷歌和百度这两个全球领先的搜索平台,并通过实例解析它们的工作原理和技术细节。 首先,我们要理解搜索引擎的基本工作流程,这通常包括爬取、索引、排名和检索四个步骤。搜索引擎会...
本文将深入探讨搜索引擎的基本概念、工作原理、工作过程以及常见的分类,并重点分析百度、Google等中英文搜索引擎的特点。 1. 搜索引擎的基本概念 搜索引擎是一个收录网页全文索引的数据库,它的主要任务是抓取、...
【标题】"搜猫搜索引擎源码|仿百度搜索引擎源码"揭示了这是一份与搜索引擎相关的源代码,特别提到了“搜猫”品牌,并模仿了知名的百度搜索引擎的某些功能或设计。这个源码可能是用于学习、研究或者开发自己的搜索...
在实现"模拟百度google搜索引擎"的过程中,开发者还会面临性能优化的挑战,比如分布式索引和查询处理、缓存策略等,以应对大规模数据和高并发访问。 总的来说,这个项目涵盖了网络爬虫技术、数据预处理、索引构建、...
1. **云搜索引擎**:云搜索引擎是一种特殊的搜索引擎,专门针对云存储服务中的内容进行搜索,如百度云盘、Google Drive、Dropbox等。它能够快速索引并提供云存储中的共享资源,使得用户无需登录个人账户即可浏览和...
本项目主要关注的是使用Python3.6和Scrapy框架构建针对Bing和百度这两个主流搜索引擎的爬虫。下面将详细介绍这两个搜索引擎爬虫的相关知识。 首先,Python3.6是Python编程语言的一个版本,它具有强大的标准库,尤其...
谷歌(Google)、雅虎(Yahoo)、百度等搜索引擎产品的兴起,极大地促进了互联网的发展。然而,面对网页动态化等新技术的挑战,传统的搜索引擎面临着诸多局限。在这种背景下,垂直搜索引擎应运而生。 垂直搜索引擎...
总之,这个工具是网站优化和搜索引擎友好性提升的重要助手,它集成了ASP技术,可以适应不同的网站环境,通过监控搜索引擎蜘蛛的活动,为网站提供有价值的反馈,帮助提升网站在百度和谷歌等搜索引擎中的可见性。
1. **全文搜索引擎**:这类搜索引擎会直接搜索其自身建立的网页数据库,提供全面的关键词搜索,如Google和百度。它们的优点是搜索结果全面,可以使用布尔运算符和短语搜索,但缺点是可能会返回大量不精确的结果。 2...
在给定的压缩包文件中,包含了一系列针对不同搜索引擎的关键字排名查询ASP脚本,如百度、谷歌、搜狗、360、有道和Yahoo。这些脚本可以帮助开发者或者SEO(搜索引擎优化)专家了解其网站或特定关键字在各大搜索引擎中...
在本篇文章中,我们将深入探讨并对比两大全球知名的搜索引擎——Google与百度,在用户搜索习惯方面的差异及特点。本文将从搜索引擎的基本概念出发,逐步解析两者的技术实现方式、排名算法、索引策略及其对用户体验的...
"搜索平台"可能是指该系统支持多搜索引擎整合,用户可以通过一个统一的接口访问不同的搜索引擎,如百度、谷歌、必应等,实现一站式的搜索体验。"网址快速搜索"和"快速在不同搜索引擎上找到结果"暗示了它的速度优势,...
搜索引擎是一种帮助用户在网上快速、方便、准确地找到所需信息的工具,它通过一定的策略在互联网中发现、搜集信息,加工整理和组织存储后,为用户提供检索服务。搜索引擎主要以网页索引数据库为基础,对搜集到的信息...
4. **查询/存储技术**:搜索引擎需要高速的查询机制和优化的存储方案,如内存存储和硬盘存储的结合,以应对大规模数据和高并发查询。 **三、系统架构** 搜索引擎系统通常包括以下几个组成部分: 1. **爬虫**:...
"搜猫"作为一个专业的搜索引擎系统开发公司,提供了多种类型的搜索引擎源码,如行业垂直搜索引擎源码、站内搜索引擎源码以及仿百度谷歌的搜索引擎源码。这些源码对于学习搜索引擎技术、优化现有搜索引擎或者开发定制...
在本项目中,我们将讨论如何实现一个仿百度、Google、谷歌的搜索引擎自动补全功能。 首先,自动补全的核心在于关键词匹配算法。常见的算法有Trie树(字典树)、Levenshtein距离(编辑距离)和基于TF-IDF的文本...
典型的全文搜索引擎包括谷歌(Google)、雅虎(Yahoo)、AltaVista、Teoma、WiseNut等国际知名平台,以及百度(Baidu)、北大天网、中搜等国内知名品牌。 从实现角度来看,全文检索搜索引擎可以分为两类:一类是...