一、故障现象

服务器不定时重启,收集日志查看,在意外关闭时间点之前十几分钟到二十几分钟内,会有bmc-watchdog报错如下:

/usr/sbin/bmc-watchdog[xxxx]: fiid_obj_get: 'present_countdown_value': data not available

二、原因分析

属于Redhat6.5 Bug,官方链接:https://access.redhat.com/site/solutions/628963 

初步分析为freeipmi无法正确重置watchdog timer,导致watchdog timer归零,从而触发BMC发送重启指令。

三、解决方案

1、系统下卸载掉下面四个软件包


查看系统中是否已安装该四个包,命令如下:

rpm -qa | grep freeipmi

rpm -qa | grep watchdog

卸载该四个包,命令如下:

rpm -e –nodeps freeipmi-1.2.1-3.el6.x86_64

rpm -e –nodeps freeipmi-bmc-watchdog-1.2.1-3.el6.x86_64

rpm -e –nodeps freeipmi-ipmidetectd-1.2.1-3.el6.x86_64

rpm -e –nodeps watchdog-5.6-2.el6.x86_64

2、或者升级freeipmi到1.2.1-6.el6_5或以上版本,下载链接:

http://rhn.redhat.com/errata/RHBA-2013-1795.html

升级指令:yum update freeipmi

升级之后执行一下指令启动服务:

使用root用户登录,在/etc/modprobe.d/watchdog‐reboot‐workaround.conf文件中添加如下:

alias acpi:IPI000*:* ipmi_si
alias acpi:IPI000*:* ipmi_devintf
alias acpi:IPI000*:* ipmi_msghandler

然后执行:

# modprobe ipmi_devintf
# modprobe ipmi_msghandler
# modprobe ipmi_si
# service bmc‐watchdog condrestart