JApan Network Operators' Group
JANOG41は株式会社インターネットイニシアティブのホストにより開催します。

発表者インタビュー:Streaming Telemetryで実現!サイレント障害における予兆検知への道

JANOG41ミーティングDay3(1月26日)のプログラム「Streaming Telemetryで実現!サイレント障害における予兆検知への道」について、登壇者の 井上 勝晴さん (ネットワンシステムズ株式会社) / 片野 祐さん (ネットワンシステムズ株式会社) / 日比野 恒さん (フューチャーアーキテクト株式会社)にお話を伺いました。


IMG_20171220_190714.jpg

JANOG41ミーティング実行委員会 (以下、JANOG) : そもそも・・・Streaming Telemetryってなんですか?

井上 勝晴さん (以下、井上) : SNMPが持つ課題を解決するためにに考え出された方法です。SNMPはコーデック構造などの問題でネットワーク機器にとっては「重い」プロトコルになっています。また、情報を取得するためにはネットワーク機器に対して都度ポーリングするPull型構造を採用している点からも機器負荷が高くなりやすい傾向があり、そう言った意味では、SNMPは情報のリアルタイム性が低いプロトコルと言えます。Streaming Telemetryは、Google等のハイパースケールデータセンターを持つオペレーター達を中心に、より低負荷、リアルタイムな手法の需要が高まる中で提案されている、SNMPに替わる新たな手法になります。データモデルにはOpenConfigも利用可能であり、非常に柔軟で将来性のある方式と言えます。そのためStreaming Telemetryは軽量な構造になっており、ネットワーク機器への負荷を抑えつつ数秒単位で情報を取得することが出来るようになっています。

JANOG : SNMPが置き換えられていく可能性があるということでしょうか?

日比野 恒さん (以下、日比野) : そうですね。ネットワーク機器についてはその可能性は高いと思います。サーバーはエージェントをインストールしてメトリックを収集するような仕組みが主流ですので、少し違うかも知れませんが。

JANOG : ハイパースケールデータセンター以外のオペレーターでも、Streaming Telemetryを使うメリットはありますか?

日比野 : キッカケはハイパースケールデータセンターかも知れませんが、それ以外のオペレーターの皆さんにもメリットは大きいと思いますよ。SNMPだと5分間隔でしか取得出来ていなかった情報が数秒単位で取得できるので、今まで見えていなかったマイクロバーストにも気づくことが出来るようになると思います。また、ネットワーク機器への負荷が小さく出来るので、今まで取得したくても出来ていなかった細かい情報も取得できるようになると思います。

片野 祐さん (以下、片野) : Streaming Telemetryを使うことで、今までより量も質も良いデータが取得できるようになるので、そのデータを使った予兆検知や機械学習等にも使い道があるかと考えています。

JANOG : 今回JANOGで議論したいと思われたのはなぜですか?

日比野 : もともと弊社(フューチャーアーキテクト)とネットワン様共同でPoCを実施していました。ネットワン様は予兆検知、弊社はマイクロバースト検知を目的としてPoCを実施していたのですが、集めた情報の見せ方等、実際にオペレーターの皆様と議論したい点がいくつか出てきました。

井上 :  私は予兆検知を実現出来た「その先」を議論したいと考えています。例えば故障の予兆検知が出来たとして、メーカーや販社が故障するまで交換に応じてくれなければ予兆検知する意味がないですよね。障害の予兆検知が出来るなら、保守部材の需要予測や自動発注まで実現出来るのではないかと考えています。そうすると我々販社やオペレーター様だけの議論ではなかなか難しく、様々な業種や、また経営層も多く参加しているJANOGで議論するのがピッタリではないかと考えました。

片野 : 共同での検証は、Streaming Telemetryがどのように使われるのか、ユースケースを考えながら行ってきました。JANOGではメーカーや販社、オペレーターのような様々な立場の方が参加しているので、それぞれの立場での実体験をもとに「こんな使い方もあるのでは?」という意見を聞いてみたいと思っています。

JANOG : 今回の発表に向けて事前資料もご準備されましたが、理由をおしえてください。

日比野 : 今回の発表時間(30分)では、前提知識も含めるととても間に合わないだろうということで、事前資料を準備しました。事前資料ではOpenConfigやStreaming Telemetryなどの基礎知識、我々の実施したPoCの構成やシナリオ、さらにはハマりどころ。また、今回利用したElastic Stackの使い方を解説しています。発表では事前資料を踏まえ、より踏み込んで実装の苦労話や課題などをお話して議論したいと思っています。

JANOG : 本プログラムを深く理解するためには必読の事前資料ですね!

日比野 : また、Elastic Stackを利用しているユーザーを対象にユーザー会を立ち上げる予定です。ユーザー会ではSlackをベースに情報交換を行っていきたいと考えています。

JANOG : 本プログラムはどういう人に参加してほしいですか?

日比野 : 「壊れたら交換する」という保守の考え方を大きく変える可能性があると思っていますので、エンジニアだけではなく、メーカーや販社など様々な立場の皆さんと議論したいです。

片野 : タイトルにもありますが、今までに「サイレント障害」で苦労した方の意見も聞いてみたいですね。そのときの障害はこのStreaming Telemetryの技術があれば解決できたのか?もっとこんな情報も機器から取得できるようになると嬉しい!といったコメントもいただきたいです。

JANOG : 井上さん、片野さん、日比野さん、ありがとうございました!


今回のテーマ "かきまぜる" にぴったりの本プログラム。ぜひ現地で議論に参加して、一緒にかきまぜていきましょう!