AI(人工知能)の為のネットワーク

概要

AI(人工知能)を学習をさせる為にはいくつものパラメーターの入力と計算を繰り返す必要がある。GPT-3、Chinchilla、PALMのような大規模言語モデル(LLM)や、DLRMやDHENのようなディープラーニング推奨システムはこの計算に関与するパラメーターを共有するいくつものGPUからなるクラスタ上で構成される。交換されるデータ量は少量のフローで大きなデータがやり取りされる。ネットワークが貧弱であったり、輻輳による速度低下はAIアプリケーションのパフォーマンスに大きな影響を与える。100G/200G/400GのGPUを接続するAIアプリケーションではTCP incastに対処する仕組みとしてECN/PFCまたは輻輳を起こさない為の機器の選択やダイナミックなロードバランスが必要となる。

本セッションでは800G/1.6T/3.2Tの更なる広帯域をサポートする100万を超えるGPUを使う大規模AIネットワークでの要件を定める為立ち上がったUltra Ethernet Consortium (UEC)の情報提供と共にAIネットワークでの必要な要件を運用者の皆さんと議論できればと考えています。

場所

QTnet room(306)

日時

Day1 2024年1月17日(水) 17:00~18:00(1時間)

発表者

土屋 師子生
アリスタネットワークスジャパン合同会社

公開資料

プログラム紹介

AI(人工知能)の為のネットワーク/土屋

SLACKチャネル

会期中や会期終了後の議論にお使いください

#janog53-aiの為のネットワーク

アーカイブ配信

アーカイブ配信は2024年2月29日(木) 13:00をもって公開終了しました。

\このページをシェアする/
translate »