概要
SONiCはホワイトボックススイッチ向けに開発されたOSSネットワークOSで、活発なコミュニティによって継続的に改善が進められています。
近年、生成AIや大規模機械学習に代表されるAI/MLワークロードの急速な拡大により、データセンター内ネットワークには、これまで以上に高いスループットや低レイテンシが求められています。特にRoCEv2を用いた通信の普及により、ネットワーク上ではバーストトラフィックや、負荷分散の偏りによるパフォーマンス低下といった新たな課題が顕在化しています。こうした背景のもと、本発表ではオープンソースネットワークOSであるSONiCを対象に、AI/ML基盤に求められるネットワーク要件への対応状況を整理します。具体的には、PFCやECNを用いた輻輳制御、ハッシュに基づく負荷分散といった現行SONiCの実装内容を明らかにし、AIワークロード特有の課題に対してどのような拡張が必要となるかを考察します。また、AI/MLワークロードのバーストトラフィックをリアルタイムで監視・可視化するための仕組みの重要性が高まっています。こうした技術的課題を踏まえ、SONiC上でのトラフィック監視機能の現状についても、皆さんと議論したいと考えています。
議論ポイント
1. AI/ML基盤における輻輳制御・負荷分散へのSONiCの対応状況と課題: 現行の実装で十分か、今後必要となる拡張は何か?
2. RDMA通信のトラフィック監視におけるテレメトリ機能の有効性: gNMIベースの監視でどこまで対応可能か、他の手段は必要か?
3. SONiCを商用利用する際の実現性と導入障壁:
商用導入における技術的・運用的な課題ついて。
場所
国際会議場/3F
日時
Day3 2025年8月1日(金) 13:15~14:00(45分)
発表者
公開資料
その他
本プログラムはストリーミング配信予定です。
アーカイブ配信
本会議終了後、順次配信予定です。