2017.04.07

KCPS 2017Q1の稼働率について

KDDIクラウドプラットフォームサービス(以下、KCPS)のサービス運用リーダーの野崎です。
KCPSの2017Q1稼働率(※)は99.999979%でした。
A(※)稼働率=月間VM稼働時間累計/(月間VM稼働時間累計+月間VM故障時間累計)ただしメンテナンス時間を除く

 

いつもKCPSをご利用いただきありがとうございます。

KCPS稼働率を維持またはもっと向上させるための重要なアイテムとして、テクニカルサポート/監視・エンジニア部門における設備故障復旧訓練があります。参考に当社体制について以下の通りご紹介いたします。

B

故障発生状況のパターン化はできますが、突き詰めてみると全く同じものは有りません。したがって復旧プロセスの各タイミングで最適な判断を下す必要があるのですが、日々の故障復旧訓練がそのベースとなります。これまでにお客さまにご迷惑をおかけした様々な故障については、再発防止に向けた必要な措置(監視閾値のチューニングやパラメータ追加、設備のバージョンアップ等々)を施したのち、故障対応の経緯を含めてデータベース化されます。これらのデータが設備故障復旧訓練のシナリオになります。

2016年度の設備故障復旧訓練実施回数は計115回、訓練参加延べ人数は数百人にものぼり、3日に1回は上のシナリオに基づき訓練を実施していることになります。以前はそのシナリオの事前読み合わせを実施し、「いかにして決められた手順通りにオペレーションをするか」に主眼を置いていました。昨今は訓練の実効性をさらに高めるためシナリオ非公開とし、過去検知したアラームを擬似的に発生させ影響範囲確認~復旧、お客さまへの故障通知内容を「確実に判断しシームレスに目標時間内に完了できるか」、これらを各ポイントでチェックすることでより実践的な訓練へ変更しました。

C

実際にこのスタイルで訓練してみると、参加者全員が各ポイントの判断の難しさやその重要性を実感することができます。なぜなら、その判断の一つ一つがシステムの復旧時間に直結するからです。この訓練を繰り返し実行することで、論理的判断の思考回路が形成され判断の精度が向上していきます。

さて、これらの取り組みの結果の一例をご紹介します。2017年はデータが少ないものの、お客さまインスタンスに直接影響を及ぼす故障が発生した場合の平均復旧時間を約5分にまで抑制することができました。※2017年3月末時点データ7とはいえ、お客さまにご迷惑をおかけしている事実を私たちKDDIはしっかり受け止めなければなりません。これら訓練の取り組みを通じて限りなくお客さまビジネスへの影響時間を0”ゼロ”に近づけるとともに、サーバー、ストレージ、付帯設備の日々のメンテナンス作業を確実に実施し、2017年度もキャリアグレードKCPSの価値を体感していただけるよう一層努力してまいります。

次回レポートもご期待ください。

カテゴリ
タグ

KDDI株式会社 運用本部
サーバーオペレーションセンター クラウドオペレーションセンター

野崎 正一

新着記事
タグ
アーカイブ
カテゴリー
Contact
TOP