概要
LINEヤフーのデータセンタネットワークでは、24/365の常駐人員による監視を前提にした運用を行っていました。
しかし、対応の手順書が整備され「成熟」していても、その実行主体が人である限り、運用負荷、改善速度などの運用の「継承」に限界があります。
今回、弊社では、アラート対応を人手によるものから基盤が自動実行し必要な時だけ人に渡す運用へ切り替える取り組みを行いました。
アラートを受けて処理を自動実行する基盤を、OSSのワークフローランナーであるApache Airflowを中心に整備しました。
ワークフローと実行履歴が可視化されることで、失敗時の追跡や人手介入がしやすくなり、自動化をブラックボックス化させずに運用することができます。
この基盤を使い、複数チームのアラート一次対応を自動化することができました。
本発表では、人手による対応の課題、アラート対応基盤の実装、それを複数チームで使える形へ整え、実運用へ適用する過程で得られた知見を共有します。
アラート対応を自動化することはどこまで実現可能なのか、そこにどのような壁があるのか、自動化が進んだ先の課題について参加者のみなさんと議論したいと考えています。
議論ポイント
– NWアラート対応は人手が担っていますか。どれくらい自動化されていますか。自動化するハードルはどこにありますか。
– ワークフローランナーのApache AirflowをNW運用に使うことに関してどう感じますか。
– 共通の運用基盤を、実際に運用チームに使ってもらうには、どのようなハードルがありますか。
– NW運用の自動化が進む(成熟する)ことで、NW運用の知識・知見が継承されにくくなるのをどう防ぎますか。
プログラムで扱う内容について
TBA
場所
本会議場1F(メインホール)
日時
Day1 2026年7月15日(水) 15:45~16:45 (1時間)
📅 Googleカレンダーに追加発表者
Honai Ueoka
公開資料
各種情報
| ストリーミング配信 | 実施する |
| アーカイブ配信 | 実施する |
| SNSやSlackでの議論 | 制限しない |
ストリーミング配信
準備中
アーカイブ配信
本会議終了後、順次配信予定です