概要
我々NTTフィールドテクノ 及びNTT-MEのNOCでは, 24時間365日大規模なNW設備の監視・運用保守を行っており, 大規模かつ成長し続けるNWを限りある人員で保守するため, 自動化を含めた業務の生産性向上に取り組んでいます.
NOCオペレータにとって最も負荷となっていることのひとつとして, 刻々と発生するNWデバイスからのアラーム(syslog, TRAP等)の監視にかかる稼働があり, 以下のような状況に頭を悩ませています.
・無視してもかまわないアラームが頻繁に発生しオペレータの注意力を継続的に削ぐ
・NW障害の際に, 周辺装置からも波及的にアラームが大量発生し根本原因が分析しづらくなる
・原因切り分けに他社網 NOC(FT⇔MEなど)や保守ベンダとのやり取りが必要で手間と時間がかかる
これらの問題の解決のために, 障害の根本原因とその波及などのアラーム間の関係性を分析することでアラームを集約・フィルタすることを可能にするアラームコリレーションと呼ばれる手法についてNTT-FT, ME及びNWデバイス保守ベンダとしてNECという監視保守業務で縁(en)の深い3社が連携し試行錯誤しています
下記のようなアプローチを紹介させていただき, アラーム監視に関わる課題感やアラームコリレーションの実現性について議論させていただければと思います.
■コリレーション手法のアンサンブル コリレーションに用いることのできる手法は既に多くありますが, それらのうちどれか一つを用いるだけではカバーできないケースが残ったり, 誤った結果を出力することがあります. そこで複数の手法を組み合わせる(アンサンブル)ことで対応ケースの拡張と精度向上を図っています. 一例としてルールベースのフィルタ, 機械学習モデル, LLMエージェントをアンサンブルしたコリレーションを紹介します.
■デジタルレイバー(LLM エージェント)同士の連携による他社間コミュニケーションの自動化 NW障害に関する他社間のコミュニケーションは, 障害の状況が様々であることやシステムの運用方針の違いから自動化に必要な対応フローの定型化やAPIの具備を行うことが難しく, オペレータがメール等でやりとりせざるを得ません. これを柔軟な対応ができるLLMエージェントを用いて他社間の対応をデジタルレイバー(労働者)同士の やり取りに置き換えることで自動化を試みました.
■トラチケ・アラーム分析LLMエージェントによるモデル学習・評価データの生成 コリレーション手法及び内包される機械学習モデルには, 大量の学習・評価データが必要になる場合があります. しかしアラーム監視に関するデータ(どのアラームにどんな判断をしたか)はトラブルチケット等にフリーフォーマットのテキスト形式でしか残されていないことが多く, 学習・評価データの形式に抽出整形するには人力での膨大な作業が必要となり現実的には十分なデータ量の確保が難しくなります. これをトラチケ・アラームの分析に特化したLLMエージェントに代行させることにより必要稼働を抑えながら大量の学習データを用意するアプローチを試みました.
議論ポイント
・アラーム監視に関する課題感について
・アラームを削減するためにどのようなアプローチをとっていますか など
場所
大展示場1/1F
日時
Day1 2025年7月30日(水) 16:15~17:00(45分)
発表者
公開資料
その他
本プログラムはストリーミング配信予定です。
アーカイブ配信
本会議終了後、順次配信予定です。