AI/ML基盤における800GbEスイッチ導入とその挑戦

概要

サイバーエージェントでは、社内向けプライベートクラウド Cycloud を構築・運用しており、その中でも機械学習基盤 ML Platform を提供しています。

JANOG52 では「AI/ML基盤の400GDCネットワークを構築した話」を発表し、400 GbE スイッチを用いた分散学習用インターコネクト構築事例を共有しました。
参考: https://www.janog.gr.jp/meeting/janog52/aiml400/

その後も400GbEスイッチを用いたインターコネクトを提供していましたが、この度GPUサーバーの増設に伴い800GbEスイッチを導入しました。
これに併せて、ネットワーク構成の見直しや高密度配線を可能とする新たなコネクタの導入、モニタリング環境の改善などを実施しました。

本発表では800GbEスイッチを用いたインターコネクト構築における設計上の工夫点や、異ベンダーのGPUサーバー・スイッチを用いた構成を実現する上で苦労したこととその対応についてを共有し、議論できればと思います。

議論ポイント

– 分散学習環境のNICの枚数はどのように決めましたか
– 分散学習環境におけるGPUサーバー・スイッチの異ベンダー構成についてどう思いますか
– 分散学習環境のチューニングはどのように行っていますか
– AI/ML基盤のモニタリングをどのように行っていますか
– 高電力・水冷時代のネットワーク設計・検証はどのように進めると良いですか
– ラック内の高密度な配線を実現するための工夫などありますか

場所

大展示場1/1F

日時

Day2 2025年7月31日(木) 10:15~11:00(45分)

発表者

小障子 尚太朗
Shotaro Koshoji
株式会社サイバーエージェント
疋田 紅樹
Hikida Koki
株式会社サイバーエージェント

公開資料

その他

本プログラムはストリーミング配信予定です。

アーカイブ配信

本会議終了後、順次配信予定です。