2017.01.26

KCPSに「マネージドオプション」が登場 〜第一弾の「Basic」ではKDDIオリジナルの監視を提供〜

はじめまして、KDDI クラウドプラットフォームサービス(以下、KCPS)の開発を担当している浅川です。KDDIの自社開発のIaaSである「KCPS」の運用オプションとして「マネージドオプション」の提供を本日より開始いたしました。本日はその第一弾として、長年のキャリア運用で培ったオリジナルの監視設定を自動化ツールとしてご提供する「Basic」(以下、マネージドオプションBasic)の内容についてご紹介します。

cloudblog_managed_option
特徴①:数クリックですぐに監視をはじめられます

今回ご提供する「マネージドオプションBasic」では、「KCPS」のAdmin Console(お客さま用管理コンソール)から、お客さまがボタンを数クリックするだけで「KCPS」と連携している株式会社はてなの監視ツール「Mackerel (マカレル)」への設定が自動的に完了し、即時に監視を開始することができます。

「Mackerel」はその特徴として、導入が簡単であり直感的で洗練されたUIを持つなど優れた操作性を持っていますが、「マネージドオプションBasic」ではKCPSのAdmin Console(お客さま用管理コンソール)に連携機能を追加開発し、更なる利便性の向上を実現しています。以下の動画から、いかに簡単にそして素早く監視をはじめられるかをご確認ください。

 

特徴②:KDDIの運用ノウハウを盛り込んだ監視設定をお届けします

さらに「マネージドオプションBasic」では、KDDIが長年のキャリア運用で培った監視設定の勘所を「KDDI運用設計ガイドライン」としてご提供いたします。監視設定はシステム毎に適切な設定が異なるため、最適な監視設定となるように設計や閾値のチューニングを行う必要がありますが、KDDIの商用設備の運用ノウハウを盛り込んだこのガイドラインをご提供することで、お客さまシステムへの最適な監視設定の適用をご支援します。

 

KDDIの商用設備の運用ノウハウとは

次に、「KDDI運用設計ガイドライン」の元となるノウハウを生んだ、KDDIの商用設備の運用についてご紹介します。

KDDIは、ネットワークからモバイル、そしてクラウド、さらにはauでんきなど、「auライフデザイン」の実現を目指して幅広い分野のサービスを提供しております。これらのサービスを支える商用設備は膨大な数であり、その一部である「KCPS」だけをとってみても監視対象の機器数は約30,000台以上(2017年1月時点)にのぼります。

これだけ多数の機器を運用していく中では、機器の故障やトラブル、ソフトウェアの不具合といった様々な問題が発生します。KDDIの運用部門では、こういった様々な問題について事前に予兆を把握することでトラブルを未然に防ぎ、万が一発生してしまった問題についても迅速に検知して復旧することで、24時間365日お客さまに安心してご利用いただけるサービス品質を実現しています。この「予兆の把握」「迅速な検知」を行うための手段として、KDDIでは「監視」を重視しています。

ここでは、KDDIの監視についての考え方や実運用でのテクニックを以下3点ご紹介します。

1. 監視の目的と観点を明確にする
2. 対応不要なアラームを発生させない
3. システムの利用状況のトレンドを把握する

 

1. 監視の目的と観点を明確にする

監視には大別して、「症状」を把握するためのものと「原因」を把握するためのものがあります。例えば、CPU負荷が高騰してWebサイトに応答遅延が発生した状況を考えると、「症状」はWebサイトの応答遅延、「原因」はCPU負荷の高騰となります。監視を実装する際は、その監視項目がこのどちら(もしくは両方)に該当するのかを明確にして組み合わせることにより、「症状」によるユーザ影響を把握した上で「原因」を把握して迅速な対応を行うことが可能になります。

「KDDI運用設計ガイドライン」では、「症状」を把握するための「故障監視」、「原因」を把握するための「予兆監視」「リソース収集(グラフ化)」という観点で監視項目を分類しています。

2. 対応不要なアラームを発生させない

監視アラームは、原則として全てが何らかの対応アクションに紐づくべきです。対応不要なアラームが日常的に発生すると、運用者の確認負荷が大きくなりますし、本当に対応が必要なアラームへの感度が鈍り対応速度が低下してしまいます。

具体例として「マネージドオプションBasic」で自動設定されるOSリソース(CPU、メモリ、ディスク)の監視設定では、WARNINGとCRITICALの閾値を同じ値に設定することで、あえてWARNINGのアラームを発生させないようにしています。これはこれらの監視項目についてのWARNINGのアラームは、多くの場合対応アクションに紐づかないと考えているためです。

3. システムの利用状況のトレンドを把握する

システムの利用状況やリソースのトレンドを把握することは、故障の未然防止やシステム資源の有効活用に必要不可欠です。このトレンドを把握するためのテクニックとして、KDDIでは「過去のグラフとの重ね合わせによる比較(曜日毎に利用状況が異なる場合が多いので、曜日を合わせて重ね合せることが多いです)」や、「異なるメトリックの重ね合わせによる比較(例えば、前述の例のWebサイトの応答速度とCPU使用率の重ね合わせ等)」を行っています。

「マネージドオプションBasic」では、グラフのカスタマイズ表示により上記のようなグラフの重ね合わせによるトレンド把握を簡単に行うことができます。

 

KDDI運用設計ガイドラインにノウハウを凝縮

ここまで、KDDIでの監視の取り組みや考え方についてご紹介させていただきました。しかしながら、実際に監視を実装する際に、これらの観点を適切に保つ監視設計を都度ゼロから考えるのはとても大変ですし、設計の考慮漏れによる品質低下リスクが発生してしまいます。そこで、KDDIの運用部門では、実装すべき基本的な監視項目を機能種別毎に定めたガイドラインとして標準化することで、基本的な監視項目についての設計工数の削減と品質の維持を両立させています。今回「マネージドオプションBasic」でご提供する「KDDI運用設計ガイドライン」では、KDDIが長年のキャリア運用で培ったガイドラインに加え、「Mackerel」での具体的な設定例を盛り込むことで、お客さまシステムの監視品質向上をご支援します。

 

マネージドオプションの今後

今回は「マネージドオプション」の「Basic」の内容についてご紹介しました。「Basic」では、お客さまのシステムやサービスの利用状況をKDDIの運用ノウハウで「見える化」「監視」することで、お客さまの本業への集中およびビジネスの成長に貢献します。

尚、「マネージドオプション」では、本日提供開始の「Basic」に引き続き、更なるお客さま満足の実現を目指して順次サービスを拡充させていく予定です。今後もお客さまニーズの高い機能より順次ご提供していきますので、続編も是非ご期待ください。

カテゴリ
タグ

KDDI株式会社 プラットフォーム開発本部
アジャイル開発センター

浅川 善則

新着記事
タグ
アーカイブ
カテゴリー
Contact
TOP