2019.03.08

KCPS 2018Q4の稼働率について

KDDIクラウドプラットフォームサービス(以下、KCPS)のサービス運用担当の南です。

KCPSの2018Q4稼働率(※)は99.993715%でした。

(※)稼働率=月間VM稼働時間累計/(月間VM稼働時間累計+月間VM故障時間累計)ただしメンテナンス時間を除く

いつもKCPSをご利用いただきありがとうございます。

はじめに、KCPS Ver2にて2018年10月に発生いたしました障害により、お客さまに多大なご迷惑をお掛けしましたことを深くお詫び申し上げます。また、この障害により2018Q4の稼働率についても、ファイブナイン(99.999%)を下回る結果となりました。この結果を真摯に受け止めるとともに、障害対応を通して見つかったさまざまな課題に対し、運用担当として引き続き改善を続けてまいりますので、今後ともKCPSサービスのご愛顧のほどよろしくお願いいたします。

2018年10月の障害では、お客さま仮想サーバーへの通信不安定、Admin Consoleの操作不可、お客さま仮想サーバーの再起動、インターネット疎通不可といった影響が発生しました。障害の原因は、KCPS環境内に流入した想定外のマルチキャスト制御パケットでした。当該制御パケットによりネットワーク機器が高負荷となり、ネットワーク不安定事象を発生させました。またこのネットワーク不安定により、障害発生ゾーンにおける管理系サーバーと、お客さまの仮想サーバーを収容するホスト・クラスタ間のハートビートが途絶えた事から、ホスト故障と検知されフェイルオーバーが発生、お客さま仮想サーバーの再起動が発生しました。また、仮想ルーターも同様にフェイルオーバーし、再起動が発生したため、インターネット疎通不可事象も発生いたしました。

本障害発生時、原因の特定が難航し、サービス影響内容ならびに影響範囲の特定に多大な時間を要しました。このため、お客さまへの適切な情報発信が遅れ、且つ障害発生からネットワーク不安定事象の復旧まで3時間40分と長時間を要し、大変なご迷惑をおかけすることとなってしまいました。

図1. 対策による復旧対処時間の早期化

 

本障害発生以降、今後このような事態を防ぐため、KCPSのネットワーク設備への制御パケットに対するフィルタリングの追加設定の投入や、通信経路監視の強化、ならびにトラヒックの異常を特定するツールを整備しKCPSネットワークの安定性向上と、障害箇所の早期特定にむけた対策を進めております。これにより、万が一今回と同様の事象が発生した場合でも、早期復旧が可能となる見込みです。

加えて、障害発生時のお客さまへの適切な情報展開と、迅速なサービス復旧を目指した新しい運用体制を構築し、障害訓練を実施いたしました。この新しい運用体制ならびに障害訓練についてご紹介いたします。

図2. 新しい運用体制

 

当社の運用体制では、監視・エンジニア部門で障害を検知し、開発部門にエスカレーションを行うとともに、サービス影響内容、影響範囲についてテクニカルサポート部門へ情報を連携します。また、テクニカルサポート部門からはお客さまからのお問い合わせ状況を共有し、障害原因の特定および復旧を加速します。

ここで最も大切なのは情報の質とスピード感です。対応の中のどこかでその質やスピード感が疎かにされてしまえば、ダイレクトにお客さまの体感品質に響きます。新しい運用体制では、新たに情報統制部門が各部門の間に入ることで、リアルタイムに情報を収集・整理し、お客さまにむけて質の高い情報を逐次展開します。

また、大規模な障害の発生を仮定した障害訓練を、新しい運用体制にて実施いたしました。
訓練では大規模かつ複雑な障害の中、「情報統制部門によってリアルタイムに情報を収集・整理できるか」「お客さまに向けて迅速かつ正確な情報展開を行えるか」を重点的にチェックしております。本訓練では、2018年10月の障害と類似した障害発生を仮定して実施しましたが、10月の障害時には約6時間を要してしまったお客さまへの故障通知を、訓練では障害発生から30分以内で実施することができました。

こうした訓練は繰り返し実施され、実施した訓練結果はデータとして蓄積されていきます。このデータを分析し、障害時のさらなる復旧の早期化、お客さまへの情報展開の迅速化を実現していけるよう、課題の改善活動を引き続き実施してまいります。

今後ともお客様にとってより良いKCPSサービスの提供ができるよう努めてまいりますので、何卒よろしくお願いいたします。

 

カテゴリ
タグ

KDDI株式会社 運用本部
サービスコントロールセンター

南 翔太郎

新着記事
タグ
アーカイブ
カテゴリー
TOP