`
cslply
  • 浏览: 20890 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论

各大型网站架构分析收集收藏

阅读更多

1. PlentyOfFish 网站架构学习
http://www.dbanotes.net/arch/plentyoffish_arch.html

采取 Windows 技术路线的 Web 2.0 站点并不多,除了 MySpace ,另外就是这个 PlentyOfFish。这个站点提供 “Online Dating” 服务。一个令人津津乐道的、惊人的数据是这个只有一个人(创建人Markus Frind)的站点价值 10 亿,估计要让很多人眼热,更何况 Markus Frind 每天只用两个小时打理网站–可操作性很强嘛。

2. 从LiveJournal后台发展看 大型网站系统架构以及性能优化方法
http://www.example.net.cn/archives/2006/03/olivejournaloio.html

LiveJournal是99年始于校园中的项目,几个人出于爱好做了这样一个应用,以实现以下功能:
* 博客,论坛
* 社会性网络,找到朋友
* 聚合,把朋友的文章聚合在一起

LiveJournal采用了大量的开源软件,甚至它本身也是一个开源软件。

在上线后,LiveJournal实现了非常快速的增长:
* 2004年4月份:280万注册用户。
* 2005年4月份:680万注册用户。
* 2005年8月份:790万注册用户。
* 达到了每秒钟上千次的页面请求及处理。
* 使用了大量MySQL服务器。
* 使用了大量通用组件。

3. YouTube 的架构扩展
http://www.dbanotes.net/opensource/youtube_web_arch.html

在西雅图扩展性的技术研讨会上,YouTube 的 Cuong Do 做了关于 YouTube Scalability 的报告。视频内容在 Google Video 上有(地址),可惜国内用户看不到。
Kyle Cordes 对这个视频中的内容做了介绍。里面有不少技术性的内容。值得分享一下。(Kyle Cordes 的介绍是本文的主要来源)

4. WikiPedia 技术架构学习分享
http://www.dbanotes.net/opensource/wikipedia_arch.html

维基百科(WikiPedia.org)位列世界十大网站,目前排名第八位。这是开放的力量。

来点直接的数据:

* 峰值每秒钟3万个 HTTP 请求
* 每秒钟 3Gbit 流量, 近乎375MB
* 350 台 PC 服务器

5. Tailrank 网站架构
http://www.dbanotes.net/review/tailrank_arch.html

每天数以千万计的 Blog 内容中,实时的热点是什么? Tailrank 这个 Web 2.0 Startup 致力于回答这个问题。

专门爆料网站架构的 Todd Hoff 对 Kevin Burton 进行了采访。于是我们能了解一下 Tailrank 架构的一些信息。每小时索引 2400 万的 Blog 与 Feed,内容处理能力为 160-200Mbps,IO 写入大约在10-15MBps。每个月要处理 52T 之多的原始数据。Tailrank 所用的爬虫现在已经成为一个独立产品:spinn3r。

6. LinkedIn 架构笔记
http://www.dbanotes.net/arch/linkedin.html

LinkedIn 雇员有 180 个,在 Web 2.0 公司中算是比较多的,不过人家自从 2006 年就盈利了,这在 Web 2.0 站点中可算少的。用户超过 1600 万,现在每月新增 100 万,50% 会员来自海外(中国用户不少,也包括我).

7. Yahoo!社区架构
http://www.dbanotes.net/arch/yahoo_arch.html

旧金山举行的 QCon 会议带给我们很多新鲜的信息。虽然没机会参加,但是看看各个网站”晒架构”也是个比较过瘾的事情。请参观并收藏这个页面:Architectures you’ve always wondered about。

8. Craigslist 的数据库架构
http://www.dbanotes.net/database/craigslist_database_arch.html

Craigslist 绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过 1000 万人使用该站服务,月浏览量超过 30 亿次,(Craigslist每月新增的帖子近 10 亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist 至今却只有 18 名员工(现在可能会多一些了)。

9. Fotolog.com 的技术信息拾零
http://www.dbanotes.net/review/fotolog_arch.html

尽管是世界上最大的图片服务网站, Fotolog.com 在国内的名气并不是很响亮, 每当提到图片服务, 很多人第一个会想起 Flickr. 但实际上 Fotolog 也的确是很猛的, Alexa 上的排名一直在 Flickr 前面, 目前注册用户超过 1100 万. 而前不久也卖了一个好价钱, 9000 万美金. 算下来的话, 1 个注册用户大约 9 美金. Yupoo 的刘平阳可以偷着算算自己的网站如果卖给老外是怎样一个价格了.

10. Digg 网站架构
http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html

Digg 工程师采用 LAMP (Linux, Apache, MySQL and PHP) 模式。这个 Alexa 排名在 100 左右的、自我估价 1.5 亿美金的站点目前有超过 100 台的 PC 服务器(足够少了),可以粗略分成三个部分:数据库服务器,Web 服务器,搜索服务器。

11. Amazon 的 Dynamo 架构
http://www.dbanotes.net/techmemo/amazon_dynamo.html

我在 DBAnotes.net 上记录过不少比较大的网站架构分析(eg: eBay [1], eBay [2]) ,Amazon 一直找不到太多的资料。国庆期间读到了一篇关于 Amazon Dynamo 的论文,非常精彩。Amazon Dynamo 这个高可用、可扩展存储体系支撑了Amazon 不少核心服务.

12. 财帮子(caibangzi.com)网站架构
http://www.dbanotes.net/arch/caibangzi_web_arch.html

财帮子(caibangzi.com) 定位在”基金理财社区”。是国内访问量最大的基于 Ruby on rails 的 startup 项目。“理财”这个词据说是光大银行发明的,且不去管,不可否认的是,目前国内”理财”是个很有潜力的切入点。财帮子网站潜在用户群还是很大的。

13. 了解一下 Technorati 的后台数据库架构
http://www.dbanotes.net/web/technorati_db_arch.html

目前处理着大约 10Tb 核心数据, 分布在大约 20 台机器上.通过复制, 多增加了 100Tb 数据, 分布在 200 台机器上. 每天增长的数据 1TB. 通过 SOA 的运用, 物理与逻辑的访问相隔离, 似乎消除了数据库的瓶颈. 值得一提的是, 该扩展过程始终是利用普通的硬件与开源软件来完成的. 毕竟 , Web 2.0 站点都不是烧钱的主. 从数据量来看,这绝对是一个相对比较大的 Web 2.0 应用.

14. 说说大型高并发高负载网站的系统架构
http://www.toplee.com/blog/?p=71

我在CERNET做过拨号接入平台的搭建,而后在Yahoo&3721从事过搜索引擎前端开发,又在MOP处理过大型社区猫扑大杂烩的架构升级等工作,同时自己接触和开发过不少大中型网站的模块,因此在大型网站应对高负载和并发的解决方案上有一些积累和经验,可以和大家一起探讨一下。

15. 大型高负载网站架构 的感想
http://atman.memoab.com/articles/194

分享到:
评论

相关推荐

    2021-2022年收藏的精品资料主要金控集团组织架构图.docx

    通过对汇丰控股组织结构的分析,我们可以看出一个大型金融企业是如何通过科学合理的组织架构设计来实现高效管理和运营的。此外,信息技术的应用不仅提升了企业的管理水平,也为客户服务提供了更多可能性。无论是汇丰...

    大型装饰家居建材行业门户网站源代码

    【大型装饰家居建材行业门户网站源代码】是一种专为装饰、家居和建材行业的企业提供在线平台的网站源码。这种源代码通常包含一系列功能模块,旨在帮助这些企业构建一个全面的在线展示、销售和服务平台,以提升品牌...

    2021-2022收藏资料江西进贤县富豪生猪养殖场大型沼气池建设项目可行性研究报告.doc

    生产工艺方案分析是项目的关键部分,将详细阐述如何进行粪便收集、沼气发酵、沼渣沼液处理等流程,以及选用何种技术和设备,以确保沼气生产的效率和质量。 项目建设目标和规模的设定,可能包括了沼气池的产能、每年...

    收藏的精品资料深圳市某大型垃圾站工程监理规划.doc

    深圳市的这个大型垃圾站项目,可能涉及垃圾收集、运输、处理和处置等多个环节,旨在提高城市垃圾处理效率,减少环境污染。项目规模大,工艺复杂,对环境保护和公众健康有直接影响,因此监理工作必须严谨细致。 **2....

    大数据应用系统监控与日志分析35.pptx

    离线日志分析则在非实时场景下对收集到的日志数据进行深度挖掘,以获取更深入的业务洞察和故障排查线索。它通常涉及对大量日志数据的批处理分析,找出模式、异常或趋势。日志分析可以帮助优化系统性能、预防潜在问题...

    2021-2022年收藏的精品资料网站销售管理系统的设计与实现开题报告.doc

    5. 数据分析:收集并分析销售数据,为商家提供决策支持。 通过以上分析,可以看出,网站销售管理系统的设计与实现不仅要满足基本的电商功能,还要关注用户体验、个性化需求以及数据分析能力,以此提升系统的竞争力...

    精品毕业论文收藏版企业综合信息管理网站设计与开发.doc

    总的来说,这篇论文详细介绍了企业综合信息管理网站的设计与开发过程,涵盖了从需求分析、系统架构选择到具体技术实施的各个环节,为企业信息化建设提供了理论依据和技术参考。通过这样的系统,企业能够更加高效、...

    基于协同过滤算法的旅游推荐系统+eclipse+mysql+系统说明.rar

    2. 数据收集与处理:系统通过收集用户的浏览、评价、收藏等行为数据,形成用户的历史行为记录。 3. 相似度计算:基于用户历史行为,计算用户之间的兴趣相似度,通常采用余弦相似度或其他相似度度量方法。 4. 推荐...

    2021-2022收藏的精品资料2021-2022年财务科安全生产工作计划.doc

    - **数据分析与处理模块**:对收集到的数据进行分析处理,识别潜在的安全隐患,并生成相应的报告或警报。 - **决策支持模块**:基于数据分析的结果,为管理层提供科学的决策依据。 - **教育培训模块**:通过线上平台...

    亚洲大型企业人力资源管理职能转变调查研究.pptx

    【描述】:该研究主要探讨了亚洲大型企业中人力资源管理职能的转变,特别是对中国企业的调查结果进行了深入分析。 【标签】:技术 【正文】: 本研究报告针对亚洲大型企业,尤其是中国企业的人力资源管理职能的...

    关于电子商务网站的方案策划书.doc

    - 卓越网:作为大型网上商城,专注于图书、音像制品,并逐步发展成为综合性的购物网站。 - 当当网:以中文图书为核心,逐渐拓展至百货零售,提供一站式的购物体验。 三、C2C模式电子商务流程分析 C2C模式电子商务...

    options.zip

    站点地图是一个列出网站所有页面的文件,它帮助搜索引擎的爬虫快速了解网站的架构,确保每个页面都能被正确索引。尤其是对于大型或结构复杂的网站,站点地图是必不可少的,因为它能引导爬虫找到可能被忽视的页面。...

    会计事务所通用网站解决方案.doc

    16. **访问统计**:跟踪网站流量,分析用户行为,优化网站性能。 17. **友情链接**:促进合作与推广,拓展网络影响力。 通过这个全面的网站解决方案,会计事务所能够有效地利用互联网进行品牌推广,提高服务质量,...

    2021-2022年收藏的精品资料管理信息系统重点内容..doc

    总体规划确定了系统的总体架构,明确了子系统及其开发顺序,保证了数据的一致性。 这些内容构成了MIS教育的基础,帮助学生了解和掌握如何构建有效的企业信息管理系统,以支持决策和提升组织效率。在实践中,结合...

    C#实验报告最新版.doc

    本报告围绕C#编程语言,介绍了一个名为“图书收集系统”的项目,旨在帮助用户管理和收藏有价值的书籍信息。该项目不仅涵盖了C#的基础语法和面向对象编程概念,还涉及了文件操作、图形用户界面(GUI)设计以及数据库...

    单体改进微服务1

    这些功能在单体架构中通常是紧密耦合的,所有代码和数据存储在一个大型的应用程序中。技术栈选用的是SSM框架,即SpringBoot、SpringMVC和Mybatis,配合Guava Cache作为本地缓存,Redis用于高并发场景下的访问支持和...

    Oracle Performance Survival Guide

    - **架构师**: 在设计大型数据库架构时,可以参考书中的最佳实践来确保高性能。 #### 五、结论 《Oracle Performance Survival Guide》不仅是一本实用性极强的性能优化指南,也是一本值得长期收藏的参考书籍。对于...

    2021-2022年收藏的精品资料企业内部控制规范基本规范.doc

    这份资料是2021-2022年间作为精品教育教学资料收集的,适用于大型企业、上市公司和涉及公众利益的企业。 内部控制规范分为基本规范、具体规范和应用指南三个部分。基本规范设定了内部控制的目标、要素、原则和总体...

    SDCC2015机器学习在美团用户画像中的应用付晴川V2.pptx

    1. **特征提取**:从各个产品线如团购、外卖、酒店、电影等收集用户的行为数据,包括注册、登录、浏览、下单、搜索、收藏、评论、消费和分享等。 2. **时间维度**:考虑用户行为的时间特性,如年、月、日、周、早晚...

Global site tag (gtag.js) - Google Analytics