2014.11.17

KCPSの2014Q3 の稼働率について キャリアクラウドの信頼性

2012年7月よりサービス開始した KDDI クラウドプラットフォームサービス(以下、KCPS)が、2014Q3(7月~9月)の稼働率(※)が99.9999%を達成しましたのでここにご報告致します。KCPSは、2013年5月と12月、2014年2月に様々な大規模障害を経験し、障害対応時にはお客様に大変なご迷惑をおかけしたことをあらためて深くお詫び致します。KDDIでは、これまでの障害経験を元に、お客様に安心してご利用頂けるキャリアクラウドを目指して、1年にわたり部門横断での品質改善プロジェクトを推進してきました。その主な取組み内容についてご紹介させていただくと共に、今後は四半期毎に本ブログにて定期的に稼働率を公開してまいります。今後も引き続きKCPSの安定運用に向けて、全力で取り組んでいくことをお約束します。

(※)稼働率=月間VM稼働時間累計/(月間VM稼働時間累計+月間VM故障時間累計)ただしメンテナンス時間を除く

SLA の定義と位置づけ

SLA は、提供されるサービスのサービスレベルの規定と品質未達成の場合のペナルティなどを文書化し、サービスの水準を可視化(多くの場合稼働率として数値化)することで表現しています。クラウドサービスのSLA 上の稼働率は概ね99.9%程度で、ミッションクリティカルな業務に対応したクラウドサービスでは99.95%程度が一般的です。KCPSでは月間のサーバ稼働率が99.99%という高可用なクラウドサービスの提供であることをSLA として定めています。

<以下のような稼働率/年間ダウンタイムの表>

SLA

KCPSでは規定したSLA に基づいて、稼働状況をリアルタイムで測定しています。刻々と変わる状況の中、目標値を満たし安心してクラウドをご利用いただけるようKCPS品質向上活動を継続して実施していくことをお約束します。

これまでのKCPSでの改善活動の取り組み

1.故障の影響の最少化
クラウドでは大量のサーバが使われています。国立情報学研究所 佐藤教授によるとGoogleのサーバの故障率は0.55%だそうで、例えばデータセンターにサーバが180台あると毎日1台が壊れていることになります。そのためKCPSでは、サーバは壊れることを前提にして故障を補うことが可能なプラットフォームを提供しています。詳しくは、後日掲載する運用担当者の記事にてご紹介させていただきますが、主な取り組みの2点をご紹介します。
本題に入る前にまずは予備知識からご説明します。KCPSでは可用性を高めるための標準機能として、数台から十数台の小さなクラスタ内に専用のスタンバイサーバを設けるコールドスタンバイ型の冗長化機能(HA: High Availability)を提供しています。そのため物理サーバまたはその上で動作している仮想マシンがダウンした場合、該当の仮想マシンをソフトウェアの技術で自動的にスタンバイ専用サーバ上に切り替え再起動を行っています。

そのようなKCPS構成上での特別な取り組みの1点目は、仮想サーバの複数クラスタにまたがる分散収容です。通常クラウド上でシステムを構築する際の冗長性向上には、仮想サーバを複数立ち上げ、ソフトウェア技術を用いて冗長性を上げる手法がとられています。KCPSではこの考え方を更に発展させ、やみくもに仮想サーバの数を増やさずとも最適な分散収容を行うことで、ストレージやネットワーク機器などの共用設備の2重故障にも影響を最小化させる構築支援を行っています。
2点目は監視・復旧ツールの高度化で、これまでの故障ナレッジを反映させた独自の高度モニタリングツール(Virtual Takayama(※))を構築し、普通では見つからないようなハードウェア、ソフトウェアの故障まで、ツールでは早期に検出し、自動復旧させる仕組みを導入しています。

2.通知時間の短縮
クラウドサービス(IaaS)においては,障害発生時には我々クラウド事業者とクラウド利用者が連携して復旧にあたる必要があります。そのためKCPSでは障害の発生を迅速に発見し本不具合の対象となっているクラウド利用者へ障害状況を通知の一連を自動化する独自の監視システムを導入、その結果、障害状況を30分毎にクラウド利用者へ通知し、クラウド利用者による業務システムの復旧を支援を行っています。

最後に

今回KCPSで達成した稼働率99.9999%はあくまで通過点です。これに慢心することなく、グローバルベストなクラウド構築技術・運用技術を発展させ続け、更なる品質向上とお客さまに満足していただける ”Quality Cloud” をご提供いたします。

(※)KCPSの中核となるクラウド管理について設計構築し、モニタリングツールの開発を手掛けたKDDI社員である高山 桂一(Takayama Keiichi) から名づけられた。

カテゴリ
タグ

KDDI株式会社 プラットフォーム開発本部
プラットフォーム技術部

前原 剛

新着記事
タグ
アーカイブ
カテゴリー
Contact
TOP