概要
AI/ML基盤におけるGPU間通信では、高い性能が求められるため、専用のRDMAネットワークを構築することが一般的です。これらのネットワークを最適化するには、アプリケーションが生成するトラヒック量や遅延要件を把握することが重要です。本発表では、AI/MLアプリケーションの通信特性理解を目的に「分散学習ジョブがネットワークに与える負荷」と「ネットワーク性能が分散学習時間に与える影響」に関して実験・分析を行った取り組みについて報告します。また、これらの分析結果踏まえ、将来のAI/MLアーキテクチャの方向性について考え、最適なアーキテクチャのあり方をみなさんと議論したいです。
議論ポイント
①専用ネットワークの最適化において、アプリケーションの通信特性分析としてどのような検証を行っているか。
②ネットワークの設計にどの程度アプリケーション特性を考慮しているか。(インフラとしてとにかく高性能化をめざしている?アプリ要件とコスト観点から、インフラ視点では妥協する場所もある?)
③AIワークロード実行中のネットワーク負荷をどのように可視化しているか。(特に、マイクロバースト)
④現在提案されているAI/ML基盤ネットワークアーキテクチャの中で、まだ最適化できるポイントはあるのか。
場所
第3展示場A
日時
Day1 2025年1月22日(水) 14:45~15:30(45分)
発表者
加納 浩輝
Kano Hiroki
トヨタ自動車株式会社
奥澤 智子
Okuzawa Tomoko
トヨタ自動車株式会社