双11过后,当前需要对本公司的所有服务器进行清点整理,便跟着运维一起学习了很多关于这方面的东西,同时自己也做了一些记录。
我们当前的机房的整体架构图:
所有设备,硬件防火墙,核心交换机,接入交换机以及vpn交换机,都采用2个设备,不会存在单点问题,后续会通过zabbix对所有设备进行硬件级故障监控;
所有刀片服务器通过接入交换机和核心交换机组成内网,使用192.168.1.*网段,内网之间不走硬件防火墙;
如果使用vpn登录,则请求通过“硬件防火墙-核心交换机-接入交换机-vpn交换机”,并虚拟出一个172 IP网段来处理;
虚拟化设备均安装ESXi,使用vcenter来对其进行部署:
当前的网络拓扑结构:
需要购买外网IP以及域名,并通过DNSPod服务进行配置,从设置的页面来看,其实DNSPod相当于一个外网BIND服务,解析域名至外网IP上。当然所有服务器并不是都存在外网ip地址(外网ip地址有限),但是需要暴露给 DNSPod 以及 加速乐 服务的相关服务器节点,需要提供外网IP。
DNS服务中每个网域名称都有自己的一些档案,称为区域档案,是由多条记录组成,每条记录称为Resource Record,在设定DNS名称解析、反向解析以及其他管理目的时,需要使用不同的资源记录,类型主要有:
SOA:Start Of Authority,放在zone file一开始的地方,每个档案只能有一个SOA,一定是档案中的第一条记录,描述该zone负责的name server,例如:
$TTL 3H @ IN SOA @ rname.invalid. ( 2015092461 ; serial 1D ; refresh 1H ; retry 1W ; expire 3H ) ; minimum
- NS:Named Server,用来指定另外一个DNS来进行解析;
- A:Address,将DNS域名对应到IPV4的32位地址;
- CNAME:Canonical NAME,可以为同一部主机设置多个别名,设置的多个别名都会连接到同一个服务器,常被用于使用第三方服务,例如使用CDN加速器将图片进行托管等操作;
- MX:Mail eXcharger,设置区域中担任邮件服务器的主机,所有要送往那部服务器的mail都要讲过mai excharger转送。
其中部署的BIND服务,就是用于内网域名 -> 内网IP使用的,只有修改了/etc/resolv.conf 的内网服务器才能正常使用,
/etc/resolv.conf 配置文件是DNS客户机配置文件,用于设置DNS服务器的IP地址及DNS域名,还包含了主机的域名搜索顺序,该文件是由域名解析器(resolver,一个根据主机名解析IP地址的库)使用的配置文件,格式很简单:
nameserver //定义DNS服务器的IP地址 domain //定义本地域名 search //定义域名的搜索列表 sortlist //对返回的域名进行排序
其中最主要的是nameserver关键字,如果没有指定nameserver就找不到DNS服务器,nameserver表示解析域名时使用该地址指定的主机为域名服务器,按照文件中出现的顺序来查询的,且只有当第一个nameserver没有反应时才会去查询后续的nameserver,例如:
nameserver 192.168.1.xx nameserver 192.168.1.xx nameserver 208.67.220.xxx nameserver 114.114.114.xxx
DNS服务由BIND软件提供,启动后服务名为named,管理工具为rndc,debug工具为dig,主要配置文件为/etc/named.conf。
虚拟机资源规划分配
针对每种不同的应用,也需要将其分配不同的资源,之前来说我们没有一个确定的规划,导致资源浪费非常严重,因此自己稍微总结了一下来作为参考(后续再测试调整):
针对测试环境,我们可以将环境独立出来进行部署,例如zookeeper,metaq,redis,以便在资源有限的情况下,最大性地发挥其性能优势。
对资源的划分,可以拆分成表格:
应用类型 |
资源估算
|
说明
|
|
nginx
|
8,4,独占网络 |
worker_process进行请求分发的进程数取决于cpu核数,占用网络带宽,最好单台实体机中存在一台nginx?
|
|
tomcat
|
4,4
|
单JVM占用内存2G |
|
redis
|
4,8
|
redis单线程模型,及时启用持久化也只会消耗2个内核,占用内存
|
|
zookeeper
|
4,4,网络连接数,磁盘
|
对磁盘的依赖非常严重,对zk数据状态的变更,都会以事务日志的形式写入磁盘,此外zk还会定时将内存数据库中的所有数据和所有客户端的会话信息记录进行快照
|
|
metaq
|
4,8,磁盘
|
Message写入速度低容量大的硬盘,对磁盘要求高,数据暂时存在页缓存(需要用到内存)中,到达某个阈值时,flush到磁盘,减少磁盘IO次数 |
|
solr
|
8,8
|
对于搜索来说,非常消耗CPU,solr JVM堆大小为4G |
|
测试环境-nginx |
4,4
|
单nginx可以随意分发至对应的测试服务中 |
|
测试环境-tomcat
|
4,16
|
单台测试环境往往部署多个tomcat,比较消耗内存
|
|
测试环境-redis
|
2,4
|
双核估计就够用了,单核用于服务,另外的负责系统调度+RDB文件生成 |
|
测试环境-zookeeper
|
2,4
|
|
|
测试环境-solr
|
4,4
|
测试solr仍然需要提供一定的cpu核数以及内存
|
|
测试环境-metaq
|
2,4
|
测试zookeeper配置低一点也应该无所谓
|
|
灰度环境-tomcat
|
4,16
|
灰度环境也需要部署多个tomcat,消耗内存较多
|
|
windows压测机
|
8,16 |
压测机比较消耗性能,CPU核数一定要跟上
|
|
windows监控服务 |
4,8/16
|
监测JVM需要使用visualvm,并将所有服务 |
|
linux监控服务 |
4,8
|
将所有监控服务进行统一部署,例如zabbix,ganglia,redis-stat,node-zk等服务,必要时可以关闭一些监控服务
|
|
降低基础服务配置可帮助我们能够在性能测试中查找出瓶颈点,因此测试环境的基础服务性能可以降低,必要时再将配置提升上去。
相关推荐
服务器日常维护是IT运维工作的重要组成部分,它涵盖了服务器硬件、操作系统、网络以及应用程序等多个方面的监控与保养。...对这些方面进行定期检查和记录,将有助于提升整个IT系统的运维效率和可靠性。
【机房服务器维护指导】 机房服务器的维护是确保数据中心稳定运行的关键环节,涉及多个方面的细致工作。以下是根据提供的文件内容整理出的主要知识点: 1. **电力保障**:机房内的服务器需要持续稳定的电力供应。...
- **硬盘使用**:查看磁盘的使用情况,包括清理垃圾文件、检查错误和进行磁盘碎片整理,以保持良好的存储效率。 - **系统信息和端口检查**:获取系统的详细配置信息,并检查开放的网络端口,确保安全和合规。 这...
- 更新机房设备清单和网络文档,记录设备的详细信息和网络配置。 - 检查机房的监控系统是否能有效监控新设备的运行状态。 6. 清理和后续管理: - 清理安装过程中的废弃包装材料、多余的缆线等,保持机房整洁。 ...
通过对XX学校两个校区数据中心机房建设项目的深入调研,我们总结出了一系列实用的设计思路和技术要点。在实际工作中,设计者应当紧密结合具体需求,灵活运用各项技术指标,确保数据中心机房建设的质量与效率。此外,...
实施过程中,要遵循严格的流程控制,包括设备下架、搬运、上架、布线、调试等步骤,每个步骤都要进行记录和验证,确保设备状态和功能不受影响。 七、机房搬迁时间安排 合理安排搬迁时间,通常选择在业务低峰期进行...
该制度主要涵盖了服务器的日常管理、物理环境、软件环境、服务器操作、日志管理、磁盘检查、病毒和补丁管理以及故障处理等方面,旨在加强服务器的安全性和提高其工作效率。 首先,制度明确了服务器的定义,即在网络...
机房主机设备维护管理的具体内容包括计算机服务器、存储服务器、网络设备、路由及交换设备等的维护和保养。 机房运维管理体系建设包括对机房运维管理体系的建设和完善,保障机房运维管理体系的正常运行。机房运维...
磁盘阵列和存储设备管理是指服务器有磁盘阵列,需对每块硬盘进行编号,并记录在案,对软件设置中的参数也要进行详细的记录,以备远程维护时指导机房人员进行远程操作。机柜、电源、网线布局管理是指服务器上架后,...
- **服务器日志监控**:每天检查系统日志和安全日志,对异常情况进行分析并记录,及时处理服务器故障。 - **服务器面板信息监控**:关注服务器硬件状态,对异常指示信息迅速响应,记录在《服务器监控记录表》。 - **...
- 对每个故障服务器,记录其序列号、安装位置,详细描述硬件指示灯、主机硬件和系统日志的检查结果,以及采取的解决方案和处理流程。 - 更换故障部件,如内存、主板、硬盘等,确保服务器恢复工作。 4. 巡检结果与...
机房设备维护方案是指对机房设备进行维护和保养,以确保机房设备的正常运行和稳定性。该方案涉及到机房设备的检测、维护和保养,包括机房主机设备、机房监控设备、机房空调与配电设备、机房消防设备、机房供水水路、...
2. 第二阶段:清洁收尾工作是对机房进行最后的清理和整理,确保设备周围无尘、无杂物,同时对所有系统进行最后的检查和调试,确保所有设施功能完备,达到预定的性能指标。 四、系统内容 4.1 详细介绍了机房内的...
2. 实时监控服务器和网络设备:利用监控平台nagios实时监控服务器、网络设备及业务系统的运行状态、性能,并根据监控和处理结果,及时记录相关信息,定期汇总运营信息。 3. 优化公司网络、邮件服务器、语音系统:...
【服务器硬件运维月巡检报告】是对服务器物理环境、服务器硬件状态、故障处理及服务器位置更新等内容进行详尽检查和记录的重要文档。这份报告对于确保互联网数据中心的稳定运行至关重要。 一、物理环境检查: 物理...
这份报告详细记录了物理环境检查、服务器检查、故障处理和巡检总结等内容,对于互联网行业的数据中心运维至关重要。 1. **物理环境检查**: - 环境温度和湿度是服务器运行的关键因素,过高或过低都可能导致硬件...
本报告详细记录了2021年3月2日的一次服务器硬件运维巡检过程,涵盖了物理环境检查、服务器状态检查、故障处理、巡检结果和总结等方面。 一、物理环境检查 物理环境对服务器的正常运行至关重要。检查内容包括环境...
- **机柜、电源、网线布局管理**:拍照记录线路,整理电源编号,确保清晰有序。 - **服务器安全**:登记编号,上锁并加封条,详细记录可抽出部分,提高安全性。 - **硬件巡检制度**:每季度进行常规巡检,排查...
- 对非机房值守出入人员及出入物品进行审查,记录。 - 依据《机房审批单》、上级主管电话通知、邮件等信息。 #### 十一、执行故障上报程序 **作业编号:YW-011** - **作业时段**:故障发生时 - **作业地点**:...