近来,Microsoft 发布了一个 Windows Hotfix,主要是针对 Windows 2008 R2 Failover Cluster 的。不管是使用 Exchange Server 2010 中的 DAG(无论是否跨数据中心),还是使用 Exchange Server 2007 中的 SCC/CCR,都建议在所有 Cluster 成员中安装此补丁,并重启所有服务器。
Microsoft 曾遇到过这样一种情况,当网络故障瞬间发生时(网络通讯中断 60 秒),整个 Cluster 发生死锁,在 DAG 中的所有数据库进而 dismounted。由于不容易检测到 Cluster 确实发生死锁,当重连接逻辑 race 产生的死锁发生时,解决该故障的唯一办法是重启 Cluster 所有服务器。
KB2550886 可以解决以上 bug,另外该 Hotfix 也包含以下几个 Windows Server 2008 R2 的重要补丁:
Cluster node cannot rejoin the cluster after the node is restarted or removed from the cluster in W