1【提出问题】
【实际案例一】
凌晨3:00点某公司(网站业务)的一个IDC机房带宽流量突然从平时高峰期150M猛增至1000M,如下图:
该故障的影响:直接导致数百台服务器无法连接,该机房全部业务中断。
实际案例二】
某年某月某日夜老男1孩接到学生紧急求助,公司网站(web游戏业务)平时几十M带宽,结果突然跑满100M,持续100M已经很久。事后,该学生的总结开头如下,
凌晨一点接到报警短信,网站无法访问。立马拿起笔记本上网查看,发现整个机柜的网络都无法正常访问。第一感觉是不是IDC网络出问题了,给机房打电话反馈回来的信息是机房网络正常,但是带宽流量异常(100M带宽的流量峰值已跑瞒)。
该故障的影响:直接导致数十台服务器无法连接,该机房全部业务中断,且故障持续时间长。
【实际案例三】
某月某日,接到运维的朋友紧急求助,其公司的CDN源站,源站的流量没有变动,CDN那边的流量无故超了好几个G,不知道怎么处理? 老男孩补充,曾遇到过一张图片不到一天,跑了20多T的一张流量。
该故障的影响:由于是购买的CDN,虽然流量多了几个G,但是业务未受影响,但是,这么大的异常流量,持续下去可直接导致公司无故损失数万元。解决这个问题体现运维的价值。
事不过三,暂时先举3个例子吧。这三个案例都是运维工作中实际遇到的故障,事发突然且需要紧急处理。在实际论坛或群里看到朋友反馈的此类问题,也多达数次,其中差不多各种鸟都有,老鸟、中鸟,小鸟。
大部分朋友解决起来,脑袋里没思路(反射弧直接定位DDOS),解决起来耗时长,造成的了业务长时间中断。老鸟解决起来也是按部就班,首先会反射为DDOS问题,结果解决时间加长了,如果能提前做好预案,恢复速度可能就会好很多,下面高手就来谈下个人的一些看法。
2 【分析问题】
1)IDC带宽被占满的原因很多,常见的有:
a.真实遭受DDOS攻击(遇到过几次,造成影响的不多见,其中还有黑客勒索的案例)。
b.内部服务器中毒,大量外发流量(这个问题老男孩接警5次以上)
c.网站元素(如图片)被盗连,在门户页面被推广导致大量流量产生(接警3次以上)
d.合作公司来抓数据,如:对合作单位提供了API数据接口(有合作的公司的朋友了解这个)
e.购买了CDN业务,CDN猛抓源站(这个次数也不少)。
f.其他原因还有一些,不普遍就不提了。
2)CDN带宽异常,源站没异常。
这类问题基本都是缓存在CDN的数据被频繁访问引起的。解决方法见结尾案例。
3) CDN带宽异常,源站也异常。
可能原因如公司做推广,大量数据访问,热点数据cache里不全。或CDN问题导致数据回源(有关CDN回源率问题及提升回源率经验,以后再和大家分享)。影响就是带宽高,后端静态服务器及图片及存储压力大
3 【解决问题】
分析了问题的可能原因,就好比较排查了。
a.真实遭受DDOS攻击
高手提供了17条解决经验思路,供大家参考,这里就不提了,那么实际上
遭受真实DDOS攻击并产生影响的并不是最常见的。
b.内部服务器中毒,大量外发流量。
这个问题的解决比较简单,可能有的朋友说,看看服务器流量,哪个机器带宽高处理下就好了。其实不然,实际解决比这复杂得多,带宽打满,所有监控都是看不到的。
比较好的思路,是联系机房确定机房自身无问题后(机房一般没法帮我们的),请机房断开连接外部IP服务器的网线,如负载均衡器,仅保留VPN SERVER,然后断掉内部服务器出网光关的线路,切断外发流量源头。
接下来查看监控流量服务,判断外发流量的服务器,然后进行处理。
其实,这个问题的发生及快速定位和很多公司的运维规范、制度关系很大,高手在给一些公司做运维培训分享时发现这个问题很严重(表象很好,内部运维规范、制度欠缺很多),大家都讨论的很深入,实际用的还是和聊的有差距。。
比如有的公司开发直接FTP连接随时发布代码,或者由开发人员负责定时多次上线。而运维人员又不知晓,结果导致问题发生定位时间长,这点建议各公司的老大多思考下。
高手的运维思路是,如果把网站机房比喻为一座房子,那首先要堵住后门(内部),其次是监控好前门(做好安全,留个小窗户给外面人看,即80端口服务,同时安排站岗值班的)。
网站的无休止的随时随意发布代码,对网站的稳定影响是至关重要的。对运维人员对故障的定位快慢也很关键。根据老男孩不完全调查,约50%以上的重要运维故障都是程序代码导致的,这也是老男孩给企业做培训分享时,灌输建议CTO的,多把网站稳定的责任分给开发,而不是运维。如果这个思想不扭转,网站不稳定状况就难以改变。
c.网站元素(如图片)被盗连
这个属于网站的基本优化了,apache,lighttpd,nginx都有防盗链的方案,必须要搞。说到这也提个案例,高手的一个学生,到了企业工作,发现人家网站没有防盗链,结果上来没有周知老大,直接做防盗链了,然后美滋滋的当时还给我留言,说给公司搞防盗链了,很有成就,结果导致公司对外合作的业务,都是小叉子了,幸亏发现的及时没出大问题。
d-e.合作公司来抓数据,如:对合作单位提供了API数据接口或购买了CDN业务。
最常见的就是购买CDN服务,如:CDN新建一个节点(可能数十机器),直接来我们IDC原战来抓数据(有的做好点的夜里来抓)。把原站抓的流量暴涨,严重的导致服务宕机。几家CDN公司,都有过这样的问题。这点希望CDN公司看到了,能改善,毕竟用户上帝嘛。
当然和电信,联通,GOOGLE,BAIDU,词霸等公司的合作,也会有流量暴高的情况,这里面包括了为合作的站搜索引擎爬虫爬数据的问题。有时虽然带宽流量不高,但是服务器或数据库撑不住了,搜索引擎专门喜欢爬我们的站内搜索,DISCUZ,CMS等早期的开源程序的搜索都是全站like %%方式去数据库搜索的,几个爬虫过来,直接就挂掉了,当然这不是本文要讨论的,解决方案以后再聊。
f.其他原因还有一些,不普遍就不提了。
上面的几点比较常见,其他原因就不多见了,因此,作罢,打这么多字真不轻松啊。
4 【苦练内功】
首先,高手强调下,大家要经常培养下自己的心里素质,遇到问题不能发慌。遇到不少朋友,处理紧急故障时,大脑都空白缺血了,手抖的无法敲击键盘了,这样的状态如何解决故障呢?如果老大在后面看着就更是雪上加霜了,甚至有个别学生直接跟高手哭鼻子了,宕机几分钟损失上万,负不起责任。
其实上面的大家的表现都是正常的,没什么不对的,曾经高手也是这样过来的,也是不断的挑战自己才练出来的。
希望朋友们能多提前做功课,不要问题来了在思考解决办法,临时的应对一定会是手忙脚乱的,即使是老鸟。如果提前有预案和防范演练,问题发生后就坦然得多,这可以扩展到运维的方方面面,DB,WEB,备份,恢复,流量等。
5 【亡羊补牢】
发生问题后,要充分总结,争取下次发生了,能提升速度,当然最好不发生。其实,运维人员挺悲催的,开发的下班就没事了,我们还得7*24开手机,来个短信提心吊胆的,甚至看到有个门户DBA发微薄,说making love时都可能被报警短信打断。1、提前优化运维制度、规范。2、提前优化网站结构、单点故障。3、留足备用带宽及服务器资源,把控好风险。4、完善的监控策略及响应机制等。
尽量不打无准备之战。兵法云,知己知彼,百战不殆。运维又何尝不是这个理?
相关推荐
3. 使用时间记录:记录学生使用机房的起止时间,以便统计和分析使用情况,为优化机房资源分配提供数据支持。 4. 网络流量监控:监控学生在网络上的活动,如浏览的网页、使用的应用程序等,防止不合规的行为,保障...
总结来说,这个基于JSP的JavaWeb机房管理系统充分利用了Java语言的强类型和面向对象特性,结合JSP的动态页面生成能力,实现了对机房资源的有效管理。通过集成MySQL数据库,系统实现了数据的持久化存储,确保了数据的...
### 国内某大型公司IDC机房技术建议书关键知识点总结 #### 第2章、XXXX IDC业务分析 ##### 2.1、传统IDC业务 - **基本业务**:传统IDC的基本业务主要包括主机托管、空间租用、带宽出租等服务。主机托管为客户提供...
本文档将对信息化调研表的主要内容进行解析,从信息化建设现状、网络情况、服务器、信息安全、机房设备和存储设备等方面对信息化工程的需求和问题进行分析。 1. 信息化建设现状 信息化建设现状是信息化工程的基础...
- **Log2007-08-28**:这可能是一个日志文件,包含了2007年8月28日的机房操作记录,包括设备状态、温度、湿度、电源状况、网络流量等关键信息。 - **JmcgServers**:这可能是服务器配置或管理相关的代码,负责监控...
1.1 当前拓扑分析涉及到对现有网络架构的全面理解,包括硬件设备、软件配置、数据流量分布、安全策略以及冗余备份机制等。这一阶段的目标是识别出网络中的关键节点、依赖关系和潜在风险,为后续的设计和迁移提供基础...
白皮书不仅总结了国内外数据中心空调系统的工程应用经验,还对数据中心环境要求、设备布局、空调系统规划、未来发展趋势进行了深入探讨。 数据中心空调系统的发展趋势主要体现在以下几个方面:首先是高密度制冷技术...
良好的网络管理要重视网络管理人力和财力的事先投入,主动控制网络,不仅能够进行定性管理,而且还能够定量分析网络流量,了解网络健康状况。 * 有预见性地发现网络上的问题,并将其消灭于萌芽状态,降低网络故障所...
通过集成机房环境、网络、流量、资源等信息,提高了运营效率,降低了运维成本,确保业务系统的稳定性和安全性。 总结来说,华为的IDC机房运营方案以客户需求为导向,通过绿色节能、模块化建设、云计算和精细化运营...
总结来说,这次培训全方位地覆盖了网络能源机房空调的各个方面,旨在培养专业人员具备全面的技术理解和应用能力,以确保机房环境的稳定性和设备的高效运行。通过深入学习,参与者将能够解决实际工作中遇到的各种问题...
- **数据中心管理**:IDC机房通过合理的IP段规划,可以高效地管理和监控网络流量,提高服务质量。 - **网络安全防护**:通过特定的IP段划分,可以实施更精细的访问控制策略,增强网络的安全性。 #### 总结 本文...
3. **编写分析报告**:每月编制业务应用分析报告,总结经验教训,提出改进建议。 #### 四、网络安全应用分析 1. **网络设备管理**:对网络设备进行日常维护,确保其稳定运行。 2. **漏洞管理**:定期进行漏洞...
现金收支月报表是财务部门每月对现金和银行存款进行总结的工具,反映企业的现金流量状况。报销单是员工报销业务支出的凭证,通过审批流程确保开支符合公司规定。这些表格共同构成了财务控制的基础。 进一步地,财务...
无人值守机房控制是利用现代化技术手段,实现对机房设备的远程监控和管理,以确保设备正常运行和及时响应可能出现的问题。本文研究了机房设备远程监控的实际应用,这是无人值守机房控制的核心内容。 ### 总结 综合...
总结来说,水源热泵机房的紧急停电处理预案是确保系统安全和高效运行的重要保障。这套预案强调了电力恢复后的系统复位、设备启动顺序、以及对关键设备状态的监测,同时也提醒了值班人员平日对机房设备知识的学习和...
12.2.2 HttpClient连接池源码分析 240 12.2.3 HttpClient 4.2.3配置 241 12.2.4 问题示例 243 12.3 线程池 244 12.3.1 Java线程池 245 12.3.2 Tomcat线程池配置 248 13 异步并发实战 250 13.1 同步阻塞调用 251 13.2...
总结来说,"电信设备-机房内主机信息的获取方法和装置"涵盖了机房运维的核心技术,包括信息采集、处理、展示和安全管理。通过理解和应用这些方法,电信公司能够提高运维效率,减少故障停机时间,优化资源分配,并...
【空调制冷机房课程设计详解】 本设计任务是关于市某办公楼空调用制冷站的设计,旨在让学生掌握...通过这个课程设计,学生不仅学习了空调制冷系统的基本原理,还实践了实际工程设计,提升了分析问题和解决问题的能力。
在本报告中,我们检测了恒温装置、机房湿度、防静电装置、防雷装置等环境因素,并对检测结果进行了总结和分析。根据检测结果,客户机房的环境状况均符合标准,无需进行处理。 二、设备巡检报告 设备巡检报告是网络...
在分析IDC的成本结构时,我们发现它主要由七大要素构成:机房电费、带宽成本、折旧费用、机房建设摊销、人工成本、机房租金以及物料消耗。 1. **机房电费**:作为IDC运营成本的最大组成部分,机房电费占据了总成本...