Day2(2024/1/18)16:00~17:00 に開催されるプログラム「データセンターネットワークでの輻輳対策どうしてる?」について、登壇者の深澤 開さん(LINEヤフー株式会社)より本プログラムについてのコメントを頂きましたので、紹介させていただきます。
応募したきっかけ
LINEヤフーではHadoopなどの大規模な分散処理基盤を運用しています。 そのような環境では大量のトラフィックが流れるため、輻輳によるパケットドロップなどが問題になることがあります。
輻輳を起こすフローが他のサービスのフローと衝突すると、大きな影響が出る可能性もあります。 一般的に、そのような環境では輻輳を起こしにくい機器の採用が推奨されており、私達もそのような機器を運用していますが、 実際にどれくらいの効果が出ているかの効果測定がこれまで出来ておらず、適したコストで運用できているかがはっきりしていませんでした。
また、輻輳制御に関する情報はメーカーやSIerから提供されるものはありましたが、実際の環境と実際のワークロードを使ったユーザ視点での検証はなく、 「こう考えれる」といった一般的な話が多いと感じていました。
そこで、実環境を持っている我々の強みを活かして検証することで、一般論ではないユーザ視点の結果を出すことができると考えました。
今回我々の環境ではHadoopを主な輻輳のワークロードとして扱っていますが、ここで得られた知見は昨今の複雑化するデータセンターネットワークの他の要求にとっても有用になると考え、 皆さんと議論することで今後のデータセンターネットワークを考えていく良いきっかけになるかと思い応募しました。
アピールポイント、議論したいこと
アピールしたい点
今回の検証にあたりHadoopチームが利用している検証用Hadoopクラスタで実際のHadoopのジョブを実行し、ネットワークのメトリクスなどを確認だけでなく、 Hadoopやサーバのログも確認し、設定のチューニングを行いながら検証を進めています。そのため、ネットワークだけでなくサーバのチューニングにも有益な検証になると考えています。
議論したいこと
検証結果から考えられるコストパフォーマンスが良いネットワークはどのようなものか、今後のデータセンターネットワークに求められる構成や技術について議論したいと思います。
JANOG53の参加者への期待
同じように輻輳制御に関して取り組んでる、困っている人と議論したいと考えています。