忍者ブログ
RAID5復旧に向けて、RAIDの基本、RAID5運用上の注意点、障害対策などなど・・・ RAID5の復旧に関して最低限のことをご紹介します。 RAID5復旧の参考にしてみて下さい。
カレンダー
06 2018/07 08
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
プロフィール
HN:
raid5復旧
性別:
非公開
ブログ内検索
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

☆本サイトでは、RAID5復旧のための基本的事項も含め記載しています☆

3月11日に過去最大の大震災「東日本大震災」が発生しました。
東京電力の原子力発電がやられたため、電力不足で計画停電が実施されています。 

実は停電、RAIDはかなり苦手としています。

RAIDを組んでいない場合、つまりHDDを単体ドライブとして使っている場合は、突然の停電でもHDD障害が起こることは稀です。 

しかしRAIDを組んでいる場合はそうはいきません。

パリティ計算にエラーが生じファイルシステムが壊れてしまうケースがあるのです。
複雑なシステム構成のため、エラーなどが発生すると狂いが生じてきます。


「RAIDシステムは夏場によく故障する」と言われるのを聞いたことがあるでしょうか?
これは落雷による突然の停電に起因します。それほど、RAIDは停電には弱いのです。
 
データ復旧・修復を手がける某社曰く、「計画停電が実施されたあたりから、停電が原因で故障したRAIDシステムの修理が増えている」とのこと。
 
停電が原因で故障するRAIDシステムは、論理障害がほとんどである。
つまり、停電により、ファイルシステムやRAIDの整合性がとれなくなるといった症状である。
 
RAID5を構成する4台のHDDのパーティション情報がすべて故障してしまうなど、復旧が困難なケースもあります。こうなると、単体のHDDのパーティションテーブルとは違う知識が必要となり厄介である。 
(※単体のHDDであれば、どのファイルシステムでも管理情報が点在しているので、経験とノウハウによりそれらを探し出してパーティションのサイズなどの情報を得ることが出来る)

従って、停電による論理障害が起こらないように対策を打っておく必要があります。
 
停電による障害策としては、UPS(無停電電源装置)を導入するのが一般的です。
UPSとは、停電が起きて電源の供給がストップしても、しばらくの間はバッテリーから電源を供給する装置です。電源が供給されている間に、正しい手順で正常にシャットダウンすることが可能となります。 
 
また、停電時だけに限らない話ですが、バックアップは必ず取ることを心がけましょう。

PR
☆本サイトでは、RAID5復旧のための基本的事項も含め記載しています☆
 
まず、RAID5について復習しておきましょう。
 
RAID5はHDDの容量を少し犠牲にするだけで、冗長化による信頼性の向上、ストライプによるディスクの大容量化と高速化といった3つを同時に実現した仕組みでした。 
 
データを書き込む際にパリティーデータを追加し、1つのHDDに障害が発生しても元のデータを復元できる構成になっています。(RAID5はRAID0にパリティーデータを追加し冗長性を確保した仕組み)
 
 
【RAID5でディスクにトラブルが発生したら、クラスタを安全停止する】 
 
ファイルサーバはクラスタ全体に多くのサービスを提供しているため、ファイルサーバが突然停止すると、クラスタ全体がパニックを起こし危険な状態になります。 
従って、ファイルサーバが停止する前にクラスタを停止させル必要があります。ファイルサーバにRAID5が採用されていると、ディスクに障害が発生しても運用が継続できるため、この猶予を活かしてクラスタを正常に停止させ、トラブルを回避しましょう。 


【RAID5では無停止運用を避ける 】
 
RAID5の利用上の留意点として、無停止運用を避けることが挙げられます。
もしRAID5のディスクにトラブルが発生したら、通常の運用はすぐに停止し、確実な復旧に向けての
準備作業を行うことが必要です。
 
まだ動いているからといって、使い続けるのはNGです。
 
 
【RAID5ならディスクにトラブルが起きてもバックアップを準備することが可能】 
 
重要なファイルがファイルサーバには保存されています。
これらのファイルを定期的にバックアップしていたとしても、ファイルサーバがクラッシュすると、最後のバックアップ以降のデータは失われます。
 
従って、RAID5のディスクにトラブルが起きたらバックアップデータの同期を取る必要があります。
また、バックアップデータが正常に動かないトラブルもありえますので、その確認作業も大切です。
 
仮に、バツクアップを取っていない場合でも、ファイルサーバにRAID5を採用していれば、ディスクにトラブルが起きても運用を継続でき、この猶予を活かしてバックアップデータの準備をすることが可能です。
 
 
長くなってきたので、続きは次回にしましょう。
 
☆本サイトでは、RAID5復旧のための基本的事項も含め記載しています☆
 
RAID5運用のキモの続きを見ていきましょう。
 
 
●RAID5のリビルト作業ではバックアップの準備が命綱
 
RAID5においては、リビルト作業に失敗すると全てのデータが失われます。
従って、RAID5のリビルト作業ではバックアップの準備が命綱となります。
バックアップの確認を作業開始前に必ずしましょう。
 
この危険度は、
・ストレージ容量が大きければ大きいほど、
・ディスク本数が多ければ多いほど、
・システムが古ければ古いほど
高くなります。
 
冗長性を損失した状態でRAIDアレイ全体を読み書きするRAID5のリビルト作業は、隠れていたディスクの障害に遭遇する危険があり、そうなると全データが消失してしまいます。
 
 
●RAID5の運用においてはディスクトラブルの早期発見が重要
 
何度も言及しているとおり、RAID5ではディスクにトラブルが発生した直後からの迅速な対応が重要です。
 
仮に、ディスクトラブルに気づかずに継続利用すると、次のディスクトラブルで全データの消失や突発的なシステムの停止が発生してしまします。これを防ぐためにも、障害通知機能を活用したりしてディスクトラブルの早期発見ができる仕組みを構築しておきましょう。
 
 
●RAID5の自動リビルドの持つリスク
 
RAID5は自動リビルトが可能ですが、この設定はリスクの高い設定です。
 
ホットスペアディスクによる自動リビルトを設定しておけば、ディスクのトラブルが検出されると自動的にホットスペアディスクがRAID5に組み込まれリビルト作業が開始されます。リビルトが完了すると、RAID5の冗長性は復活し、トラブルが発生したディスクはRAID5から分離され交換されるのを待っています。
 
便利そうに見えるこの機能ですが、実はリスクの高い設定です。
 
【RAID5の自動リビルトリスク1:バックアップ】
自動リビルトの場合、リビルドを開始する直前にバックアップの同期は取れません。
従って、リビルド中に次のディスクにトラブルが発生すると最後のバックアップ以降のデータは失われます。
また、バックアップを取っていない場合は、バックアップ無しでリビルドが行われることとなります。
 
【RAID5の自動リビルトリスク2: 過大な負荷】?
自動連続運転がデフォルトのため、ファイルサーバに連続負荷がかかります。
もし、ここで自動リビルドが開始されても、クラスタへ通知されなければファイルサーバへの連続負荷は止まりません。従って、ファイルサーバは「自動リビルドの負荷+通常の負荷」が集中する高負荷の状態に陥ります。高負荷状態では小さなトラブルが連鎖反応を起こすことがあり危険性が高まります。
 
 
●HDD容量の巨大化によるRAID5のメリットが低下
 
最近ではHDD容量が巨大化し、しかも安価なため、RAID5のメリットが消失しつつあります。
 
実際の運用で使い易いのは、2テラバイト(TB)程度のサイズです。
最近では1TBのHDDが普通に安価に市販されています。
この1TBディスクを用いて2TBのRAID5ボリュームとスペアディスクを構成する場合、4個のディスクが必要となります。
しかし、1TBのディスクが4個あるなら、RAID5より、RAID10(1+0)を構成してしまった方が良いです。
さらにディスクをもう1本追加できるなら、RAID10+ホットスペアディスクの構成が実現可能となります。
 
Powered by ニンジャブログ Designed by 穂高
Copyright © RAID5復旧.navi All Rights Reserved
忍者ブログ / [PR]