2014.11.18

365日、守るのが使命。KCPS品質改善の取り組み

KDDIクラウドプラットフォームサービス(以下 KCPS)の運用担当の鈴木です。私が所属するサーバーオペレーションセンター(以下 SVOC)は、KCPSだけでなく、auやauひかり等の事業用サーバ設備を24時間体制で運用しておりますが、KCPSについては、お客様からのご申告に迅速に対応するため、クラウドオペレーションセンター(以下 CLOC)がSVOC内にクラウド系サービスの専門組織として設置されています。SVOC、CLOCともども、お客様満足を得られるよう高品質なサービスを目指していきますので、よろしくお願いします。

KCPSは、サービス開始当初から長時間故障を多数発生させ、お客様に大変なご迷惑をおかけしましたが、2014年度2Q 仮想サーバの稼働率99.9999%を達成する事ができました。これまでに大変な苦労がありましたので、今回は、これまでに私が学んだクラウド運用のポイントとKCPS品質改善の取り組みについて、失敗談を含め、包み隠さず紹介したいと思います。

きめ細やかなリソース管理が重要

リソース管理

クラウド運用のもっとも難しいところは、ネットワークやストレージ(ディスク装置)等、共用設備のリソース(CPU、メモリー、帯域等)予測が困難ということです。これまでに私たちが運用してきた事業用サーバ設備は、開発時に入念なアプリケーションの負荷試験を行い、キャパシティプランに則った設備設計を行います。このため、ボトルネックや重点的に見なければいけないリソース監視ポイントがある程度、導入当初に明確となっています。一方、IaaS基盤であるKCPSは、お客様の利用用途を特定、限定できないため、リソース予測が困難です。サービス開始当初、KCPSでは、ストレージ装置のバックアップを一律、深夜にスケジュールしていたため、お客様側のバックアップと時間が重なり、ストレージのCPU負荷が高くなる事象が発生しました。これが、グローバルでも稀なディスク装置のバグを誘発し、長時間故障を起こすという大失態を犯しました。現在は、負荷が均等になるようにバックアップ時間をチューニングしています。また、同様のミスを再発させないために、KCPSでは31項目の重点リソース項目に品質基準値を定めています。項目の中にはCPU、メモリ、ディスク等の使用率だけでなく、セルフポータルやディスクのレスポンスタイムといったお客様目線の品質基準値も含まれており、基準値をオーバーすると、24時間365日、バックヤードの運用担当、設計担当、工事担当にエスカレーションされる仕組みが整備されています。

ハザーダス状態(片系運用状態)を最短にする

KCPSでは、サービス性質上、複数のサーバでネットワーク、ストレージ装置を共有しています。もちろん、これらの機器はすべて冗長構成が組まれており、1台の機器故障ではお客様仮想サーバに影響を与える事はございませんが、二重故障となった場合は多数のお客様にご迷惑をおかけする事態となります。メーカーから提示される故障率からは、短期間に二つの機器が同時に故障する確率は非常に低いのですが、所詮、確率論でしかありません。KCPSは、ハザーダス状態(片系運転)になった場合は、即交換対応をするポリシーとなっていますが、過去に1度、メーカーが持ち込んだ保守部材では復旧せず、35時間に及ぶ片系運転の期間中に、不幸にもさらなる障害が重なり、二重故障を発生させてしまいました。数字上では殆ど、起こり得ない事象が発生してしまったのです。この事教訓に、現在は予備パーツのデータセンター配備等、メーカーと特別な契約を結び、ハザーダス状態を最短で解消する環境が整備されています。ハザーダス状態が発生した際は、私にも必ずエスカレーションが入り、お客様影響が発生した際と同様のスピード感、緊張感で復旧対応をおこなっています。

復旧対処のツール化が必要不可欠

ツール

上述したように、共用機器の二重故障のリスクを最小限にする対応をとっていますが、二重故障が発生すると、多数のお客様仮想サーバが一斉に予備サーバへ切り替わります。切り替えが正常に行われれば問題ないのですが、一斉に発生するため、一時的なリソース不足により、一部の仮想サーバが起動に失敗することがあります。サービス開始当初は、1サーバごと手動で対処を行っていたため、お客様によっては復旧時間が長時間となり、ご迷惑をお掛けする結果となってしまいました。これらを教訓に、1分1秒でも早くお客様仮想サーバを復旧させるためにKCPSでは多種、多様な復旧ツールを整備しました。起動失敗を自動で検知し、リカバリする自動復旧ツールや対象機器や仮想サーバの状態確認、リセットを一斉に行うツール等、現在では23のツールセットが準備されています。これらのツール開発は日々の運用改善として行っており、今もなお、増え続けています。また、復旧ツールを24時間、監視者が使いこなせるように定期的に訓練を行い、二重故障が発生しても2時間以内にすべてのお客様が仮想サーバを復旧できるように準備しています。

地道にナレッジを蓄積する

ナレッジ

KCPSはCloud Platform上で、お客様がハイパーバイザーとして KVMと VMwareを「選べる」アーキテクチャを採用しています。自由度を高くしたため、稀に世界初のバグに遭遇してしまうこともあります。初めてのバグですからメーカーからパッチが提供されるまでに時間がかかり、その間、運用側でワークアラウンド(以下  WA:一次的な応急措置)を行う必要があります。これらに該当する事象をいち早く検知するために、KCPSではクラウドスタックから出力されるログを低いSeverityでアラーム化し、24時間体制で監視しています。導入当初は、お客様操作による正常系のアラームも検知してしまい、膨大なアラームを検知しましたが、バックヤード担当がKDDI独自のナレッジシステム(AlarmViewer)を使い、地道に調査、精査を行うことで、膨大なナレッジベースが構築されています。このナレッジベースを24時間対応する運用者が活用することで、迅速且つ、きめ細やかなWA対応を安定的に提供しています。

 最後に

最後に

KDDIでは、社員の行動指針を記載したKDDIフィロソフィがありますが、その中に” 365日、守るのが使命“という一説があります。KCPSの運用者はこの精神に基づき、24時間365日、片時も緊急コールを受けるための携帯電話を離すことなく日々過ごしています。KCPSはキャリアであるKDDIが提供するサービスです。
ご信頼いただいたお客様を裏切る事ないよう、日々、品質改善に取り組んでまいります。

カテゴリ
タグ

KDDI株式会社 プラットフォーム開発本部
プラットフォーム技術部

鈴木 信貴

新着記事
タグ
アーカイブ
カテゴリー
Contact
TOP