プログラム紹介「AI/ML基盤の400G DCネットワークを構築した話」

画面上段左から、内田さん、宮城(Org)
画面下段左から、小障子さん、太田(PC)

JANOGerの皆さまこんにちは。JANOG52 企画編成委員の宮城です。
プログラム紹介のニュースレターとして、Day3(2023年7月7日) 10:15～10:45に2F コンベンションホールで行われる「AI/ML基盤の400G DCネットワークを構築した話」を紹介いたします。
紹介にあたり、登壇者である株式会社サイバーエージェントの内田さん、小障子さんにお話を伺いました。

プログラムに応募したきっかけを教えてください
「Cycloud」について教えてください
参加者とどんな議論をしたいですか？
400Gネットワーク構築で一番苦労したことは？
AI/MLは高速化することでどんなメリットがありますか？
先日行われた “CIU Tech Meetup” 内で発表された内容から変更点があれば教えてください
”eXchange” と掛けて、最後に意気込みをお願いします！

プログラムに応募したきっかけを教えてください

内田さん：我々は普段は社内向けプライベートクラウド ”Cycloud” の運用構築を業務として行っていて、Cycloudのサービスの一部としてML Platform(機械学習基盤)を提供しています。
ML PlatformではGPUサーバーの環境を提供していましたが、「基盤モデルの学習を複数台のGPUサーバーで並列分散処理させたい」と社内からの要望が高まってきたことを受け、GPUサーバー間に新しく400Gロスレスのネットワークを構築しました。400Gやロスレスネットワークで苦労した部分をeXchangeしたいと思い今回のプログラムに応募させていただきました。

「Cycloud」について教えてください

小障子さん： “Cycloud” はサイバーエージェントグループ全体向けにIaaS・KaaS・ML Platformなど様々なサービスを提供するプライベートクラウドサービスの総称です。ユーザーのニーズを拾いながら、データセンターの選定からハードウェアの構築・ソフトウェア開発まで全てCIU(CyberAgent group Infrastructure Unit)所属のエンジニアで行っています。
NWとしてはAS番号を取得し、バックボーンネットワークからデータセンターネットワークまでの幅広い領域のネットワークを設計・構築・運用をしています。ルーター、スイッチ、ファイアウォール・ロードバランサー、VPN装置など複数のベンダの機器を使用し監視・自動化までを一貫して行っています。

参加者とどんな議論をしたいですか？

小障子さん：400Gトランシーバーについて、サードパーティ含め様々なものがあると思いますが、各社がどのように選定されているのか議論したいです。またGPU間を高速接続する方法として、どのような選定基準で決められているのか議論したいです。

内田さん：NW機器だけの帯域増強であれば100Gから400Gに移行する方法を考えればいいのですが、GPUサーバーだとGPUのアーキテクチャの理解や、アクセラレーター間の通信方式をどうするのか、CPUのNUMA(Non-Uniform Memory Access)など、NW＋αでコンピューティングの知識が求められるので、今後ネットワークはどうなっていくのか？エンジニアとしてどういうキャッチアップが必要か？を議論したいですね。

400Gネットワーク構築で一番苦労したことは？

内田さん：ぶっちゃけ全部です(笑) リリースされるGPUサーバーの仕様が固まらない状況で、NWを100Gにするのか400Gにするのかも含め情報を集めたり、昨今の納期問題やもちろん価格なども課題は多岐にわたりました。現状Cycloudのネットワークを運用しているメインメンバーは我々2人なので、普段の構築運用業務をしながら2人で新しい情報を調べつつ、新規で構築したので全てにおいて非常に苦労しました。

AI/MLは高速化することでどんなメリットがありますか？

小障子さん：大量のデータを長時間学習させる基盤モデルでは、一回の学習に数十日から数百日かかることもあり、GPUの分散処理環境を高速化することで数十時間という単位で学習時間を短縮することが出来るメリットがあります。しかし、大規模なGPU分散処理環境ではサーバー間のインターコネクトがボトルネックとなっている事が現状です。
1台のサーバーに搭載されているGPU間の学習ではGPUサーバー内蔵の高速なインターフェースで接続されます。2台以上のGPUサーバーを跨ぐ分散学習が必要な場合は、GPUサーバー間のインターコネクトが必要となり、現状ではEthernet/Infinibandで製品化されている400Gが限界となり、ボトルネックとなっています

内田さん：GPUサーバー間の高速通信はEthernet上のRDMA通信で実現しています(RoCEv2)。
RDMAの性質上、単純に400Gの帯域が必要なわけでもないです。広帯域で”ロスがないEthernet”が必要となります。”ロスがないEthernet”というのは ”パケットロスがないネットワーク”で、IEEE 802.1DCB (データセンターブリッジング)などに対応したネットワークが必要となります。RDMAはロスがない事が前提とされたプロトコルのため、ロスがパフォーマンス・ビジネスチャンスに大きく影響を与えます。

先日行われた “CIU Tech Meetup” 内で発表された内容から変更点があれば教えてください

内田さん：前回はどちらかというと高速接続する必要性やRoCEv2について解説するセッションでしたが、今回はJANOGerに向けて物理周りをメインにトランシーバーのフォームファクターや、ケーブル選定の話など、言葉は悪いですが”泥臭いネットワークエンジニア”としての泥臭く苦労した部分の追加情報のお話を半分、 “CIU Tech Meetup” でお話した内容を半分。物理の設計など、実際に運用してみて気が付いた反省点も出てきたので、そういった追加情報も話せればと思っています。

”eXchange” と掛けて、最後に意気込みをお願いします！

小障子さん：AI/ML基盤での400Ｇネットワーク導入は国内ではまだ事例が無いとのことなので、この知見をJANOGでeXchangeしていきたいです！はじめてのJANOG登壇なので、より良い議論ができればと思っています。よろしくお願いいたします！

内田さん：今回初めての挑戦で、すごい苦労するポイントが多々ありました。その苦労して得た知見をみんなに共有しつつ、JANOGerへ「新しい流れがきているぞ！」ということを議論してeXchangeしたいと思っています。参加される方々がワクワクするような発表になるよう、資料作りをがんばります！

内田さん、小障子さん、お忙しい中インタビューにご協力いただきありがとうございました！
当日は国内事例の少ない貴重なお話をお聞き逃しないよう、皆さま奮ってご参加ください！