怎样制定机器维护规划
无论购买服务器托管到IDC机房,还是租赁服务器,您都不必成为服务器专家,但您需要定期维护它.服务器每天 24 小时执行,每周执行数百万次交互.所有这些都会造成硬件,软件,信息库和服务器的磨损.老旧的服务器设定将不足以处理日益增加的交互数量.服务器软件将非常容易受到新的流量攻击,sql 表将变得支离破碎,硬盘最终会降级甚至崩溃,最终可能导致服务质量低下,信息丢失或数据被盗.
实际上所有这些都很非常容易预防.你所需要的只是一个计划:服务器维护计划.您需要在不同的时间段检查服务器中的不同内容.
一、服务器维护计划包括哪些内容?
1. 日常维护
• 软件更新:防病毒和软件更新可以在任何一天开展.
• 安全性日志审核:滥用客户,网站访问者或僵尸程序可能会从合法客户那里夺走资源,应该尽快阻止.
• 漏洞披露:软件供应商和安全性渠道报告未经修补的漏洞或流量攻击.紧急修补将保护您的信息.
2. 每周:检查您的备份.如果备份不可用,您将只丢失一周的信息.
3. 双周:审核磁盘使用情况,包括老旧帐户,未完成的备份,旧的临时文件等会占用磁盘空间,从而导致磁盘空间问题.
4. 每月一次:提升信息库.繁忙的信息库在一个月内可能产生 3% - 5%的碎片.
5. 双月:调整运用程序.由于流量模式可能会在两个月内发生变化,因此未经提升的设定会影响快速.
6. 一天 24 小时:监控服务器执行状态.可以根据负荷高峰等早期迹象发现服务器故障.早期检测可以防止彻底停机.您需要检测的内容包括 raid 健康、服务器温度、负荷平均值、网络连接等.
2、如何组建最适合您的服务器的维护计划
您可以依据服务器维护活动的目标,来细分服务器维护活动,然后找出完成该目标需要完成的工作.例如:
紧急反应,您需要知道您的服务器是否发生了不好的事情,您需要在出现问题时快速恢复服务.预防措施包括:主动审核和检查系统,以防止可能的服务降级或误用.它可能包括:安全性检查,绩效审计,资源使用审核等.保险措施包括:备份审核,镜像故障迁移测试,高可用性测试.
1、制定应急反应计划
可能出现故障的软件和硬件组件种类在信息库服务器,邮件服务器和 网站 或运用程序服务器中会有所不同.因此,没有一个最适合所有人的列表,来列出服务器中需要监控的所有故障.您需要考虑一下服务器可能出现故障的常见方式,以及如何及早发现它们.例如:网站 服务器可能存在以下问题:
• 容量错误(流量的突然增加可能耗尽内存,并使磁盘过载,导致反应迟缓);
• 客户滥用(在共享环境中,某些客户可能会执行资源繁重的脚本,从而导致服务器负荷);
• 网络流量攻击(僵尸网络根据在网站上执行数千个同步查看来完成大规模流量攻击);
• buggy 脚本(编码不良的脚本可能导致内存泄漏或其他资源过度使用);
• 网络故障(网站 服务器可能会丢失与后端信息库服务器或其他运用服务器的连接);
• 硬件错误(从 raid 降级到温度问题,各种各样的问题都可能导致服务器执行不良或冻结);
• 恶意软件注进(黑客可能会使用未公开的漏洞将恶意软件注进服务器);
• ip / 网站声誉问题(搜索引擎可以检测到恶意软件注进的网站从而降低网站权重)等等.
为预防这些故障,您需要每周 7 天,每天 24 小时监控与这些问题相关的服务器参数.它可能包括负荷均衡,内存使用,i / o 使用等.在列出最适合您的服务器种类的所有这些方案和服务器参数后,列出您需要采取的实际操作以使服务重新联机.紧急行动需要提前考虑,因为您没有时间停下来思考服务何时失败.
4、制定预防性维护计划
预防性维护的目标是审核和调整服务器和服务的每个部分,以便它不会失败.同样,您需要检查的内容将依据您执行的服务器种类而有所不同.大家来看一个信息库 sql 服务器的例子.mysql 服务器维护计划将包括:
• 碎片整理(又名表提升):信息库中频繁的 “删除” 会使表格碎片化.每月提升一次表,以防止配置问题和可用空间的损失.
• 分析(提升索引):mysql 使用索引快速查找所需的信息.大约每月执行一次 “分析” 以简化索引,并使查看执行更快.
• 完整性检查:有时,由于信息库崩溃或运用程序错误,mysql 索引会丢失对信息集的跟踪.每周检查信息库完整性以防止查看错误.
• 磁盘执行状态检查:服务器日志中记录了 hdd 或 raid 错误.此类错误是即将发生故障的早期指示,您可以采取措施更换磁盘.
• 空间使用检查:您的信息库需要增长空间,开展备份和开展大型事务.每月检查一次陈旧文件,临时文件或旧备份.
• 群集效率分析:信息库群集应很好地地同步信息,以防止查看延时和信息错误.早期检测同步滞后可以防止代价高昂的信息库崩溃.
• 错误日志审核:如果 mysql 服务器检测到索引或表损坏,则会记录错误.定期错误日志审核将防止意外停机.
• 慢查看分析:mysql 会将执行效果不佳的查看记录到文件中.对这些查看和服务器调整的每周分析可能会阻止配置日志.
• 服务器快速审计:每月快速测试可以显示 mysql 服务器执行查看的效率.根据及早发现和修复瓶颈,您可以避免配置问题.
5、计划灾难恢复
您的服务器硬盘迟早会失败.有些信息可能会丢失.那时的重要问题是,“你多久能恢复?” 如果您已准备好应对这种可能性,那么它可能只需 1 min.
在巨牛科技,大家维护着 网站 服务器,IDC机房和其他在线服务提供商的服务器.大家的每个客户都有不同级别的可用性要求.有些人可以忍受数小时的停机时间.有些人甚至不能容忍一min的停机时间.
因此,大家架设了普遍的解决方案,以确保业务服务连续性,从高可用性集群和容错硬件到故障迁移镜像和增量备份.最少,您的灾难恢复计划应包括备份审核.一些检查是:
• 状态检查:备份是否每天都成功完成?它显示错误了吗?
• 信息完整性检查:备份存档是否已损坏?是否可以从中检索信息?
• 磁盘空间检查:磁盘空间不足?是否有空间接收下周的档案?
• 恢复过程检查:当前恢复方法是否很好地?是否存在连接错误或其他阻止快速恢复的问题?
组建灾难恢复计划的出发点是问自己,您希看能够以多快的快速恢复服务.然后向后工作所需的系统,涉及的成本,以及您愿意接受的权衡.