またも、ディスク関連のトラブルです。0xF9FC
夜半にウトウトしていたところ、「MegaRAID SAS 9265-8i」からの悲鳴のような警報音で叩き起こされました。
前回は、SSDがクラッシュしましたが、今回は、HDDが逝ってしまいました。
恐る恐る「MegaRAID Storage Manager」(以下、MSM)で調べてみたところ、2TBのHDD・5本で組んだRAID5ドライブのうちの、4本目のディスクがクラッシュしていました。
RAID5は、冗長構成ではありますが、一重の冗長であり、1台のディスク障害によるデータ復旧中に、もう1台のディスクに障害が発生してしまうと、永遠にデータが失われてしまうことになります。
#RAID6であれば、同時に2台が壊れても、データを復旧することができますが。(二重の冗長)
RAID5ドライブに使っているディスクは、リード/ライトの特性を揃えるため、同じ製品(=同じMTBF)を使っていますが、1台が逝ってしまったということは、もう1台(残りの4本のうちのどれか)が逝ってしまう可能性が高くなっていると考えられます。
ということで、速攻でクラッシュしたディスクを交換します。
これまでは、HGSTの「HDS723020BLA642」のリテール品、「0S03191」を使っていましたが、今回は、サーバ用の高信頼モデル、「HUA723020ALA640」(購入価格:15,960円)を使うことにしました。
MSMを使えば、ホットスワップ(サーバ稼働中でのディスク交換)もできるようです。
#「Start Locating Drive」で当該のディスクを特定し、「Make Drive Offline」で外せる状態にしてから交換し、「Start Rebuild」で復旧。
ただ、ちょっと怖いので、いったんサーバの電源を落としてから、ディスクを交換することしました。
MSMでは、0オリジンなので、表示上は6番目の論理ディスクとなっていますが、SASケーブルのナンバリングは、1オリジンなので、7番目の物理ディスクとなります。
間違ったディスクを交換してしまうと致命的なことになってしまうので、慎重に当該のディスクを特定します。
#こういう時のため、テプラで“示名条片”を作って貼っておきました。(備えあれば憂いなし)
ディスクアレイから、当該のディスクを外します。
左側がクラッシュした「0S03191(HDS723020BLA642)」で、右側がこれから交換する「HUA723020ALA640」です。
2つとも、キャッシュ(64MB)と回転数(7,200rpm)は同じですが、消費電流は異なり、HDSが430mA(5V)・740mA(12V)、HUAが450mA(5V)・850mA(12V)となっています。
なによりも、HDSは「Made in China」であるのに対し、HUAは「Made in Thailand」でした。この際、高い信頼性を求められる部品については、ちゅーこく製を徹底的に排除していきたいと思います。
ディスクを交換し、サーバを立ち上げると、MSMにて操作するまでもなく、リビルドが自動的に始まっていました。(「Auto Rebuild」がONになっている場合)
リビルドには、4時間50分ほど掛かりました。
なにかと忙しい年末に、一瞬肝を冷やしましたが、なんとか原状復帰することができました。ふ~ぅ。0xF9C6