`
wbj0110
  • 浏览: 1603148 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Craigslist 的数据库架构(转)

阅读更多

(插播一则新闻:竞拍这本《Don’t Make Me Think》,我出价 RMB 85,留言的不算–不会有恶意竞拍的吧? 要 Ping 过去才可以,失败一次,再来)
Craigslist 绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过 1000 万人使用该站服务,月浏览量超过 30 亿次,(Craigslist每月新增的帖子近 10 亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist 至今却只有 18 名员工(现在可能会多一些了)。

Tim O’reilly 采访了 Craigslist 的 Eric Scheide ,于是通过这篇 Database War Stories #5: craigslist 我们能了解一下 Craigslist 的数据库架构以及数据量信息。
数据库软件使用 MySQL 。为充分发挥 MySQL 的能力,数据库都使用 64 位 Linux 服务器, 14 块 本地磁盘(72*14=1T ?), 16G 内存。
不同的服务使用不同方式的数据库集群。

论坛

1 主(master) 1 从(slave)。Slave 大多用于备份. myIsam 表. 索引达到 17G。最大的表接近 4200 万行。

分类信息

1 主 12 从。 Slave 各有个的用途. 当前数据包括索引有 114 G , 最大表有 5600 万行(该表数据会定期归档)。 使用 myIsam。分类信息量有多大? “Craigslist每月新增的帖子近 10 亿条”,这句话似乎似乎有些夸张,Eric Scheide 说昨日就超过 330000 条数据,如果这样估计的话,每个月的新帖子信息大约在 1 亿多一些。

归档数据库

1 主 1 从. 放置所有超过 3 个月的帖子。与分类信息库结构相似但是更大, 数据有 238G, 最大表有 9600 万行。大量使用 Merge 表,便于管理。

搜索数据库

4 个 集群用了 16 台服务器。活动的帖子根据 地区/种类划分,并使用 myIsam 全文索引,每个只包含一个子集数据。该索引方案目前还能撑住,未来几年恐怕就不成了。

Authdb

1 主 1 从,很小。
目前 Craigslist 在 Alexa 上的排名是 30,上面的数据只是反映采访当时(April 28, 2006)的情况,毕竟,Craigslist 数据量还在每年 200% 的速度增长。
Craigslist 采用的数据解决方案从软硬件上来看还是低成本的。优秀的 MySQL 数据库管理员对于 Web 2.0 项目是一个关键因素。

分享到:
评论

相关推荐

    高性能高并发服务器架构大全

     Craigslist 的数据库架构 81  Second Life 的数据拾零 82  eBay架构的思想金矿 84  一天十亿次的访问-eBay架构(一) 85  七种缓存使用武器 为网站应用和访问加速发布时间: 92  可缓存的CMS系统...

    分布式数据库调研报告.pdf

    MongoDB已广泛应用在社交网络、内容管理系统、电子商务、物联网等领域,包括Foursquare、Craigslist、迪士尼、SAP、Intuit、EA等国际知名公司,以及淘宝、大众点评等国内企业。 2. MongoDB的存储技术与存储架构: ...

    2024年SSM 框架以及 B/S 架构模式校园二手交易平台

    采用典型的三层架构设计,即表示层(前端页面)、业务逻辑层(后端处理逻辑)、数据访问层(数据库操作)。各层之间通过接口通信,实现了良好的解耦。 #### 4.2 系统功能模块设计 主要包括用户模块、管理员模块等,...

    craigslist-serverless分析

    craigslist-serverless分析项目是一个基于Python技术栈的案例,它展示了如何使用Serverless架构来处理craigslist网站上的数据。通过这个项目,我们可以深入理解Serverless架构的优势以及Python在其中的应用。 首先...

    rubyslist:我克隆的流行网站 Craigslist

    【Ruby列表:Craigslist的RoR克隆】 Ruby列表是一个用Ruby on Rails(RoR)框架构建的项目,它的目标是模仿并实现流行的分类广告网站Craigslist的功能。RoR是一个基于Ruby语言的全功能Web开发框架,以其MVC(模型-...

    bike_scraper:Web App 从 Craigslist 抓取数据

    Rails遵循MVC(模型-视图-控制器)架构模式,提供了一种高效、简洁的方式来构建动态和数据库驱动的网站。在这个项目中,Rails负责处理HTTP请求、数据库交互以及页面渲染。 ### 2. 数据库管理 - SQLite 数据库管理...

    craigslistapp:使用Django框架,BeautifulSoup和Resquest库创建craigslist应用

    开发者可以快速构建安全、可扩展的Web应用,无需从零开始编写基础架构。 2. BeautifulSoup库:这是一个用于解析HTML和XML文档的Python库,使得开发者能够方便地提取和操作数据。在Craigslistapp中,BeautifulSoup...

    Struts架构指导

    Struts是Apache软件基金会的一个开源项目,最初由Craigslist创始人Craig McClanahan开发,它基于Model-View-Controller(MVC)设计模式,为Java EE平台提供了一个强大的、可扩展的、易于管理的Web应用开发框架。...

    海洋5.2分类信息商业源码

    这个源码可能包含了网站的前端界面、后端管理系统、数据库结构以及相关的配置文件,旨在帮助开发者快速搭建一个类似Craigslist或58同城这样的平台。 在IIS_Rewrite这个文件中,我们可以推测这可能与Internet ...

    den123分类信息网 商业版-ASP源码.zip

    因此,了解如何设计一个高效的数据库架构和使用SQL(结构化查询语言)进行操作是至关重要的。 2. 用户注册与登录系统:为了发布和查看信息,用户需要注册和登录。源码中会包含处理用户注册、验证、登录、密码找回等...

    RDBMS to Mongodb Migration

    在进行迁移之前,需要组织成功的关键在于涉及应用程序的所有关键利益相关者,包括业务线、开发者、数据架构师、数据库管理员(DBAs)和系统管理员。在某些组织中,这些角色可能会有所重叠。项目团队应该共同定义业务和...

    mongoFirstAttempt

    Craigslist使用它b / c,他们不必使用大量架构迁移。 有哪些替代方案?与之有何相似之处? 任何基于sql的数据库(例如postgresql和mysql)都是替代方法。 其他nosql数据库包括apache,cassandra,redis等。 这项...

    基于Web的校园跳蚤市场交易系统的设计与实现(论文+源码)-kaic.docx

    国外如eBay、Craigslist等平台已经非常成熟,而国内则有闲鱼、转转等知名平台。这些平台大多采用了较为先进的技术手段,如大数据分析、人工智能推荐等,以提高用户体验。但在校园内部,这类平台的应用还相对较少,...

    基于python的校园二手商品交易系统的设计与实现.docx

    此外,还描绘了系统的大致架构,包括前端展示、后端逻辑处理和数据库设计。 在系统设计与实现部分,作者将深入阐述采用的Python Web框架Django,介绍其MVT(Model-View-Template)设计模式,以及如何构建数据库模型...

    二手市场论文.doc

    研究的意义和现状部分,作者可能分析了当前二手市场的主要参与者,如Craigslist、eBay、闲鱼等平台的成功案例,以及它们在解决上述问题上的策略和方法。此外,可能会讨论一些新兴的市场趋势,如社交电商、绿色消费...

    Memcached分布式缓存系统的应用.pdf

    Memcached被广泛应用于如Flickr、Twitter和Craigslist等大型网站和搜索引擎中,用于缓存频繁访问的数据。这包括用户会话信息、页面内容、搜索结果等。在实际应用中,Memcached与PHP结合使用较多,因为PHP提供了对...

    memcached学习总结

    - **Craigslist**:分类广告网站。 - **Mixi**:日本流行的社交网络服务。 这些网站和服务通过部署Memcached实现了数据的高速缓存,极大地提升了用户体验,同时降低了对后端数据库的压力。 #### 三、Memcached与...

Global site tag (gtag.js) - Google Analytics