QA@IT

RAID5なのにシステムを停止するように言われる

2801 PV

RAID5の利点は、HDDの冗長化もそうですが
システムを停止せず壊れたディスクを交換できることだと思っているのですが
派遣先の責任者からシステムを止めて(OSもシャットダウン、電源もOFF、ケーブル類も抜線)
から、HDDの交換をするように指摘を受けました。
RAID5の利点を説明したのですが、
システムを止めてから作業するように強く言われてしまいました。

こういう場合、素直に従うべきでしょうか・・・
もしくは、上の私のRAID5に対する考え方間違っていますか?

追記
24時間サービスを提供しているシステムになります。
システムを停止するには、メンテナンス上情報をWebに掲載するだけでなく、関係者との調整が必要。
この工数も含めてシステムを停止しろと指示されています。

回答

RAID5の場合、パリティが各ディスクに分散されて保存されているので 1台故障しても運用は続けられます。

ただし、1台欠けたままの状態ではこの分散されているパリティから再計算によって欠けているディスクのデータを算出しますので全てのディスクに負担がかかる状態になります。
もう 1台故障すればシステム停止という状況ですのでそういう負荷がかかった状態で壊れたディスクの復元を行うのはリスクが高い行為です。

ディスクの復元も負荷が高い行為です(残りのすべてのディスクのすべてのパリティ情報から壊れたディスク 1本分のデータを計算するので)。システム運用以外でもその間に(ちょっと確認してみるとかで)ディスクアクセスされると復旧に時間がかかるだけでなく、別の傷害を招くおそれもあります。
理論上は可能であったとしても停止して交換した方が良いかと思います。

交換中もシステムを動作させたい場合は RAID 1+5とか 5+1を検討することになると思います。

なお、ホットスペアがあって自動的にディスクの復元が行われる場合でも時間もかかりますし、その間はパフォーマンスは著しく低下します。ディスク交換後のコピーバックは時間もたいしてかからないとは思いますが。

編集 履歴 (0)

RAID5は1台故障しても運用を続けられるというだけで故障時の交換に
システム停止をしなくてもよいという仕様ではないです。

システム停止しなくても交換出来るのはホットスワップ対応のものでないと駄目です。

編集 履歴 (0)
ウォッチ

この質問への回答やコメントをメールでお知らせします。