`
ithero
  • 浏览: 145588 次
社区版块
存档分类
最新评论
阅读更多

转自phphot

phphot

phphot

Twitter 的运维专家 John Adams 在 Velocity 2009 上做了一篇题为 Fixing Twitter 的技术分享(PDF ),人家也是一直在努力阿。John Adams 在 2008 年七月加入的 Twitter ,对于 Twitter 的站点稳定的确做了不少工作。

Twitter 运维团队的职责:

  • 软件性能(后端) Software Performance (back-end)
  • 可用性 Availability
  • 容量规划 Capacity Planning (metrics-driven)
  • 配置管理 Configuration Management

看完这个接近 50 页的 PDF ,除了满足我们一小部分技术窥探的癖好,或许也可以学到点什么。

不重复发明轮子

对于监控,Twitter 用的就是 RRDtool ,Ganglia 、MRTG 这些已经成为很多网站标准配备的组件。而不是自己写一大堆功能重复的东西。值得注意的是, Twitter 也一直在用 Google Analytics 进行业务分析。

不重复发明轮子,可以打磨轮子,比进行如一些功能脚本定制之类的工作。

发明不重复的轮子

Twitter 开源了他们自己用的一个 Apache 模块 mod_memcache_block (a distributed IP blocking system),这个模块根据 HTTP 代码请求限制访问频率。熟悉 Twitter 的朋友会知道这是针对第三方应用程序的必须的一个功能,否则的话,会产生类似 DDos 的效果 :) John Adams 说这个模块是他多年以来就期待的东西,我相信,如果有人已经做了同样的事情,他们肯定不会自己再写一个。

尽可能的自动化

无论是配置管理还是针对各项功能的"开关",都尽可能的自动化。依赖于人来控制一些事情容易"规范",但是流程冗杂,节奏变慢。

更好的理解硬件

拥抱新技术体系,使用更有经济效益的硬件(比如对 8 核 CPU 的选型与更换)会带来更好的收益。而这个要建立在对硬件体系的正确理解上才行。

另外几句话要记住:

  • Disk is the new Tape. (内存是新类型的磁盘. 磁盘是新类型的磁带)
  • Kill long running queries before they kill you. (问题是如何提前发现? 有效的监控!)
  • Use metrics to make decisions, not guesses.
  • "Cache Everything!" not the best policy

分享到:
评论

相关推荐

    FixingTwitter twitter运维资料

    ### Fixing Twitter: Twitter运维资料解析 #### 一、运维团队与挑战 **标题与描述**:“FixingTwitter twitter运维资料”明确指出本资料聚焦于Twitter运维中的问题及解决方案。 **核心要点**: - **小而迅速成长...

    NoSQL相关技术 算法和思想

    Twitter运维经验 Twitter等社交平台利用NoSQL数据库处理实时流数据,实现了高并发下的数据处理。 #### 六、总结 NoSQL数据库通过引入新的设计理念和技术手段,解决了传统关系型数据库面临的挑战。无论是CAP理论、...

    NoSQL数据库学习教程.pdf

    Twitter 运维经验是指使用Twitter的运维经验。 运维经验是指分布式系统的运维经验。 Metrics是指分布式系统的性能Metrics。 配置管理是指分布式系统的配置管理。 Darkmode是指分布式系统的Darkmode。 进程管理...

    NoSQL数据笔谈

    - **Twitter运维经验**:包括监控指标、配置管理、暗模式部署等最佳实践。 #### 十七、云计算架构 随着云计算的发展,NoSQL数据库也逐渐成为云服务的重要组成部分,提供了高度可扩展、易于管理和使用的解决方案。 ...

    NoSQL数据库详细介绍入门经典

    - **Twitter运维经验**:社交媒体平台在数据处理与实时分析方面的挑战与应对策略。 #### 运维经验 - **Metrics**:监控系统性能指标的重要性。 - **配置管理**:分布式系统中配置文件的统一管理和维护。 - **Dark...

    藏经阁-Twitter 千万 QPS 分布式系统的架构设计和高效运维.pdf

    Twitter 千万 QPS 分布式系统的架构设计和高效运维 从给定的文件信息中,我们可以获得以下知识点: 1. 分布式系统架构设计:文章讨论了 Twitter 千万 QPS 分布式系统的架构设计,涉及到数据系统的设计、存储类型、...

    NoSQL数据库笔谈

    Twitter运维经验 - **要点**: 强调了监控、配置管理和故障恢复机制的重要性。 #### 五、总结 NoSQL数据库因其灵活性、可扩展性和高性能等特点,在处理大规模非结构化数据方面表现出色。通过上述理论和技术手段的...

    王亚雷-Twitter 千万 QPS 分布式系统的架构设计和高效运维

    - **精准运维**:随着系统规模的扩大,运维人员需要更加精确地监控和预测潜在的问题。 - **智能运维**:利用机器学习等技术提高自动化水平,减少人工干预。 - **自动化运维**:构建自动化的工具和流程来提升运维效率...

    运维大数据

    当今世界,公司的日常运营经常会...我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单,因为用它处理大数据不会带来新老技术的交替。

    网站运维之道

    【网站运维之道】是指在确保网站稳定运行的过程中所采取的各种技术和管理策略。运维不仅包括基础的软硬件安装和网络配置,还涉及应用程序维护、安全、容量规划和故障修复等多个方面。运维工作是技术与业务之间的桥梁...

    Twitter系统结构分析

    总结,Twitter的系统结构是大型网站架构设计的典范,其在微服务、实时流处理、数据库优化、负载均衡、CDN、消息队列、分布式计算、云基础设施、安全防护以及自动化运维等方面的实践,为我们提供了丰富的经验和参考。...

    Twitter的memcached改造 Twemcache.zip

    6. **监控与运维**:Twitter作为一个大规模的社交网络,需要强大的监控和运维工具。Twemcache可能集成了更好的监控指标和运维接口,便于运维团队监控和调试。 **标签“C/C++”** 标签中的“C/C++”表明Twemcache...

    构建微服务云原生应用——可运维架构设计和实践.pdf

    Zipkin 是Twitter开源的调用链追踪系统,它采用非侵入式的方式,通过运行期字节码增强,对多语言支持良好。Apache Skywalking 是一个成熟的APM(应用性能监控)工具,具有良好的社区支持和Apache背书,支持多种语言...

    在Facebook,我是这样做运维的

    在刚刚起步的小公司,中型的Twitter以及规模庞大的Facebook做运维有什么不同?在硅谷十几年做这一行都经历了一遍。互联网时代的小公司里面做运维的人都是十项全能,在这样的环境中你的目标只有一个那就是支撑产品的...

Global site tag (gtag.js) - Google Analytics