プログラム紹介「大規模ネットワークにおける障害可視化のためのアーキテクチャについて」

担当PCとの打合せにも参加させていただきました。左から佐藤さん、野中さん、榊原さん、蟹江さん(担当PC)

Day2(1/18) 15:00~15:45に開催される「大規模ネットワークにおける障害可視化のためのアーキテクチャについて」の発表者の
株式会社NTTフィールドテクノの佐藤さん、野中さん、森野さん、榊原さんから
コメントを頂きましたので、以下にご紹介をさせていただきます。

応募したきっかけ

昨年、ネットワーク障害があった際に障害の全容がすぐに掴めない状況でした。そこで迅速な障害復旧に必要なNWの可視化などの障害把握手段の拡充に目をつけ、運用保守オペレーションの高度化に取り組んできました。

ちょうどJANOG53のテーマが “The Internet” で「現在の社会・経済・国民生活にとって存在することが当たり前の重要インフラとなっており、年々高い安定性を期待されるもの」という我々の取り組みの背景と合致したプログラム募集でしたので、有益な議論ができると感じ、応募させていただきました。

アピールポイント

弊社には色々な機種の機器が存在しており、LLDPが対応していない機器もありました。そこで機種にあったやり方で情報を取得し、管理情報などと照合することで信頼できるDBを生成・維持するデータパイプラインを作成しました。

NWデータに関して、ただmysqlに入れて可視化しても、台数が多かったりすると、性能的に厳しいことがわかり、何かいい技術スタックがないか確認していたところ、 neo4j や networkx 等、複数のデータモデルで保持し組み合わせることで性能的にも余裕を持ちながらも、描画処理・経路計算を高速に行えるようにしました。

構成図を可視化しただけでは障害の全容は見えませんので、障害の状況や動的のマッピングが処理が必要となります。
pingや調査のコマンドを自ら叩くなど手動でのオペレーションをやめてワークフローエンジン(Airflow)と生のpythonコードを組み合わせることで自動オペレーションに変更。また集めたデータを一旦分析してからマッピングさせるために、機械学習で用いられる実験管理モデル(MLflowTracking)を用い、迅速に障害分析を行うのに適した可視化を試みました。

上記アプローチを経て、実運用に資するレベルの可視化を実現していきました。
今回の発表でレイアウトも紹介できればと考えております。

JANOG53の参加者への期待、議論したいこと

NW可視化に関する課題感について以下のような議論をさせていただきたいです。

  • まず可視化は実施しているか
  • 可視化のベースとなる、 信頼できる装置・接続情報(Single Source of Truth)をどのように維持しているか
  • 可視化のスケール(装置台数)はどの程度か、レスポンス・視認性に関する課題はどのようなものか
  • どのような情報を構成図と関連付けて可視化したいかなどの大規模ネットワークにおける運用上のノウハウ
  • ネットワーク可視化を実現するアーキテクチャと技術スタック
  • 紹介した技術スタック(cytoscape, neo4j, networkx, airflow, Mlflowなど)に関するメリット/デメリットなどの可視化技術に関するノウハウ

最後に

JANOG45札幌のハッカソンに参加し、そこで経験した内容が今回の発表のベースとなりました。
今回登壇者として参加できることを大変嬉しく思います。可視化の取り組みを社外と議論し、ブラッシュアップしていければと考えております。

\このページをシェアする/
translate »