基于环境参数的服务器集群自动保护系统设计

张晓峰



摘 要: 从高校服务器集群管理的实际需要出发,以电网供电和环境温度作为主要环境参数进行研究, 采用上、下位机设计方案,结合计算机、网络、单片机技术,具体设计了服务器集群自动保护系统。当环境参数异常时自动关闭服务器集群,环境参数恢复正常时,自动恢复服务器集群的正常服务功能。目前系统软、硬件设计已经完成,实现了服务器集群自动保护功能,通过实际应用,取得了很好的效果。
关键词: 服务器集群管理; 自动保护; 系统设计; 环境参数
中图分类号: TN911?34; TN98 文献标识码: A 文章编号: 1004?373X(2017)08?0008?03
Design of server cluster automatic protection system based on environmental parameters
ZHANG Xiaofeng
(Northwest A&F University of Information Engineering, Yangling 712100, China)
Abstract: Proceeding from the actual management needs of the server clusters in universities, and taking the power supply and ambient temperature of a power grid as a main environmental parameters of the research, the automatic protection system of server cluster was designed in combination with design scheme of upper and lower computers, computer technology, network technology and SCM technology. When any environment parameter is abnormal, the server cluster is automatically closed, and the normal service function of the server cluster is automatically restored when the environment parameters are returned to normal. At present, the system software and hardware design has been completed, and the server cluster automatic protection function has been realized. The very good result of practical application has been achieved.
Keyword: server cluster management; automatic protection; system design; environmental parameter
0 引 言
在高校的計算机实验教学中心,服务器集群是核心节点,承载着教学和科研服务功能,全年不间断工作[1]。要保障可靠运行,除设备本身的因素外,运行环境至关重要[2]。运行环境中最重要的两个因素是电网供电和环境温度,因为异常停电会造成服务器数据丢失,而高温会使服务器设备瘫痪甚至损坏[3?4]。因此,在服务器集群的运行环境中,大功率UPS电源和精密制冷空调是必须的配套设备。但在实际应用中,一些突发因素仍然会导致服务器数据丢失甚至造成设备损坏[5]。根据对西北农林科技大学计算机教学实验中心服务器集群十多年的运行统计,概率最高的两个因素是电网异常停电和空调故障[6?7]。当电网异常停电时,服务器集群有UPS供电仍能正常工作,但空调是感性负载,UPS电源无法给空调提供电力,因此电网停电时空调也停止工作[8]。此时,服务器集群工作所产生的热量使运行环境的温度迅速升高,如果不能及时发现和处置,高温最终会导致服务器系统瘫痪,并引起数据丢失甚至造成设备损坏。空调出现故障时,引起的情况与此相同。因此,当电网异常停电或空调出现故障时,如何保护服务器集群设备并防止数据丢失,具有重要的研究意义。
1 现状及存在的问题
目前对服务器集群监控的主要方法是采用机房动力和环境监控系统,该技术是基于GSM的短信报警系统,即当机房的环境温度、湿度、电网电压等参数超过设定的范围时,报警系统以手机短信的形式发给管理者,以便管理人员能及时地发现和处置问题[9]。短信报警方式实质上是“无线报警+人力保障”的管理模式,但对高校计算机实验教学中心而言,服务器集群的规模相对较小(100台以下),而且这些机房都无人值守,因此这种监控方式本身就不完善,主要表现在以下几个方面:
(1) 在晚上一些时段,特别是24:00以后,即使技术管理人员接收到报警短信,但由于大家都在熟睡,短信可能被忽略。
(2) 遇到双休日、节假日,技术管理人员可能远离设备所在地,当收到报警短信时,问题很难及时处置。特别是在高校的寒、暑假期间,这种问题表现得最为突出。
(3) 可能造成较大的经济损失。一般情况下,服务器集群与交换机、路由器等设备都集中安装在中心机房,这些核心设备不仅运行着各种关键业务,而且设备价值一般比较高,一旦出现上述异常情况,如果处置不及时而造成设备损坏,不但影响大,其损失往往也较大。
以上问题是基于GSM的短信报警技术本身无法解决的。