ESXiのバージョンアップ
ESXiバージョンアップ作業後、vSANがエラーになりました。
具体的には、全ホストのESXiバージョンアップ完了後、うち1台がvSAN上でLOSTになる状態になりました。このため、1号機上で動作していたVMがすべて「無効」状態になりました。
なお、非公開情報が含まれるため、詳細な情報については記載を控えますことを、ご了承ください。
まず、初めに・・
ESXiのバージョンアップ作業を実施する際は、以下を徹底することをおすすめします。
ESXiをバージョンアップする場合、vCenterのバージョンアップから行うという点が重要です。
例えば、下記リンクのマトリクス表を参考にした場合、必ずしも必要ではないと判断されるケースもありますが、例えばここにvSANやvRops、vRealize Log Insight なども考慮する必要があり、こうしたケースではかなり複雑です。
今回のケースでは、結論からいうとアップデート先バージョンのESXiとvCenterはサポートされているが、ESXiのバージョンアップと同時にvSANのバージョンも上がり、このvSANのバージョンとvCenterの既存バージョンについて互換がないことから発生しました。つまり、VMware推奨のバージョンアップ手順に従っていれば、発生しなかったということになります。
上記が前提ではありますが、調査の結果vCenterの不具合により、特定の複合条件下において、vCenterとホスト間の通信が途絶えvSAN管理上から外れてしまうという事象が発生したことがわかりました。
結果論ではありますが、vCenterを先にバージョンアップしていた場合、このバージョンアップ先ではこの不具合は修正されているということも判明しました。
特にvSANクラスタをバージョンアップする場合、vCenterからバージョンアップしなさいと明記されており、この手順でない場合データロストなどにつながるという記載があります。従い、定型的にこの手順を実施するということで認識すべきなのです。
今回は、すでに現象発生後にお呼び出しとなり、現地に入ってから復旧までにかなりの時間を要しました。データロストなどは発生しなかったのですが、長時間にわたりシステム停止となり、影響は多大なものとなりました。
バージョンアップ作業を実施する場合、事前の環境調査、計画、手順の精査をしっかり行ってから実施するように心がけたいと改めて思うのでした。
※詳細なバージョンの情報や不具合の内容などを記載したいのですが、既知の不具合として公表されていないとのことで、記載を控えておりますことをご了承ください。