2011年4月21日、米国太平洋時間午前1時頃から延べ3日間に渡って大規模な障害が生じました。
まずは障害に見舞われた方に心からお見舞い申し上げます。
復旧から数日経ち、今後パブリッククラウドをどのように安全に活用していくべきかという点で深く考えさせられた数日でした。
ネット上ではすでに冷静な分析がはじまっておりますが、BASISコンサルタントとしてクラウドといえども、金物には変わらないという意味で永遠のテーマを今一度つきつけられた感じです。
簡単ですが、今回発生した障害の概要です。
障害が発生したは、US-EAST-1リージョン、米国バージニア州北部にあるといわれるデータセンターです。
AWSの場合、一つのリージョンに複数のAvailability Zone(AZ)という区分けが存在していますが、そのうちの主な1つ、ただしアカウント毎にAZの物理的なマッピングは異なりますので、適切な表現が難しいです。(=アカウント A から見た us-east-1a はアカウントB にとっての us-east-1a と同じとは限らない、ただしアカウント Aの us-east-1aは常に同じ物理ロケーションにある)
事の発端は、ネットワーク経由でサーバに接続する際に遅延やエラーを検知したイベントという記事もありますが、それよりも前にサーバの高負荷やEBSへのI/Oが出来なかったとかの情報もありました。その後EBSボリュームの再ミラーリングが大量に発生したというのは事実で、これを聞いただけでBASISコンサルタントの方であれは、復旧にかなりの時間かかるのは容易に想像できたのではないかと思います。その後もキャパシティを追加して、再ミラーリングを加速させたり、特定のコントローラへの負荷集中を低減されていたりと、その対応に追われるエンジニアの懸命な姿は詳細は知らねども容易に想像できました。
他方で、実際に障害に見舞われたお客様が「われわれは、批判もできるが、EC2がなければ、今日ある場所にもいることができなかっただろう」というコメントを出されていたことも大変印象に残りました。
本件に関連する技術的に有益な情報を発信されているサイトを2つご紹介させてください。
1. 日本のパートナー様
実際にAWSを活用されているSonicGarden様が今回の障害に遭われた際に、事前に策定されていたリカバリプランでどのように迅速に解決され、また今回の障害を振り返って技術的な観点からご説明されておられましたのでご紹介させて頂きます。
[AmazonEC2] AWS障害による影響を小さくするための設計(2011/4/21の障害を踏まえて)
2. 現時点の総括
現時点で総括まで到達されている内容はまだまだ少なく、今回は原文はO'ReillyのCommunityサイトですが、それを平易な日本語に訳して提供されている AgileCat様です。
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる_1
最後になりましたが、SonicGarden様、Agile Cat様には貴重な内容を掲載して頂いたことに、この場を借りて心からお礼を申し上げます。
今回の障害発生時には、我々は東京リージョンを利用していたので、幸い被害にはあいませんでしたが、今後も継続して状況を見守りつつ、SAPシステムとしてパブリッククラウドを活用する場合の最適な運用方法を見極めていきたいと思います。
長文お読み頂きありがとうございました。
- カテゴリ: クラウド
この記事に関するサービスのご紹介
導入/移行(プロフェッショナル)サービス
プロフェッショナルサービスでは主にSAPシステムの導入や移行、それに伴うテクニカルな支援を行います。ERPやS/4 HANA、SolManといった様々なSAP製品の新規導入、クラウドを含む様々なプラットフォームへのSAPシステムの最適な移行、保守切れに伴うバージョンアップ・パッチ適用等の作業だけでなく、パラメータ設計、パフォーマンスチューニング、導入・移行計画支援等についても対応いたします。
詳細はこちら