一、故障现象
服务器不定时重启,收集日志查看,在意外关闭时间点之前十几分钟到二十几分钟内,会有bmc-watchdog报错如下:
/usr/sbin/bmc-watchdog[xxxx]: fiid_obj_get: 'present_countdown_value': data not available
二、原因分析
属于Redhat6.5 Bug,官方链接:https://access.redhat.com/site/solutions/628963
初步分析为freeipmi无法正确重置watchdog timer,导致watchdog timer归零,从而触发BMC发送重启指令。
三、解决方案
1、系统下卸载掉下面四个软件包
查看系统中是否已安装该四个包,命令如下:
rpm -qa | grep freeipmi
rpm -qa | grep watchdog
卸载该四个包,命令如下:
rpm -e –nodeps freeipmi-1.2.1-3.el6.x86_64
rpm -e –nodeps freeipmi-bmc-watchdog-1.2.1-3.el6.x86_64
rpm -e –nodeps freeipmi-ipmidetectd-1.2.1-3.el6.x86_64
rpm -e –nodeps watchdog-5.6-2.el6.x86_64
2、或者升级freeipmi到1.2.1-6.el6_5或以上版本,下载链接:
http://rhn.redhat.com/errata/RHBA-2013-1795.html
升级指令:yum update freeipmi
升级之后执行一下指令启动服务:
使用root用户登录,在/etc/modprobe.d/watchdog‐reboot‐workaround.conf文件中添加如下:
alias acpi:IPI000*:* ipmi_si
alias acpi:IPI000*:* ipmi_devintf
alias acpi:IPI000*:* ipmi_msghandler
然后执行:
# modprobe ipmi_devintf
# modprobe ipmi_msghandler
# modprobe ipmi_si
# service bmc‐watchdog condrestart