Rack-Scale GPUサーバーのNW設計と運用までの苦悩

概要

ソフトバンクでは、自社で AI 計算基盤を運用しユーザに対して計算資源を提供しています。
今回初めての取り込みとして、大規模な Rack-Scale GPU サーバの設計・構築しました。
従来のAIデータセンタの設計・運用フローでは対応しきれない物理的・時間的制約が大きく、多くの学びを得ました。
本セッションでは、最新のAIデータセンタをどのように設計して構築していったか、運用までに出てきた課題をどのように解決してきたかについて発表します

– 水冷特有の設備であるCDUやマニフォールド、ORv3ラックへの対応、Rack-Scale GPU サーバ特有の物理制約をネットワーク設計にどう反映したか
– 構築期間短縮のためレイアウト最適化、運用フェーズで直面した課題への対応

今後、最新のAIデータセンタを構築する人が何を考え、何に取り組むべきかを明確化できるようなセッションを目指します。

議論ポイント

– 構築期間を短縮するために物理・論理設計で取り組んでいることはありますか (配線・レイアウト・部材選定など)
– ファシリティ周りの知識をどのように得ていますか(電源/冷却設備/ラックなど)
– 最新のデータセンタ構築に向けて何を学び、何に取り組むべきか

プログラムで扱う内容について

どのような内容を共有するか

  • 設計時の対応
  • ラックスケールGPUサーバをどのような考えで設計したのか
  • マルチテナントをどのように実現したか
  • 最終的に決まった構成に至るまでの背景
  • 構築時・運用時の話
  • 配線時に困った事・ブレイクアウトケーブルの課題
  • 水冷ラック特有で困った事
  • リンクフラップ問題・トランシーバの切り分け手法

場所

本会議場2F-B(真珠の間B)

日時

Day2 2026年7月16日(木) 14:45~15:45 (1時間)

📅 Googleカレンダーに追加

発表者

内田 泰広

Yasuhiro Uchida

ソフトバンク株式会社
朝程

Chaocheng Chang

ソフトバンク株式会社

公開資料

各種情報

ストリーミング配信実施する
アーカイブ配信実施する
SNSやSlackでの議論制限しない

ストリーミング配信

準備中

アーカイブ配信

本会議終了後、順次配信予定です