プログラムインタビュー「いかにして我々は7/19の史上最大規模の障害から復旧したのか」

JANOGerのみなさんこんにちは!JANOG55 企画編成委員の神戸です。
Day2(2025年1月23日)14:45~15:30に分科会会場3Fで行われるプログラム「いかにして我々は7/19の史上最大規模の障害から復活したのか」にご登壇頂く、小岩さんにお話しを伺いました。

登壇者:小岩さん、インタビュワー:神戸さん、PCスタッフ:高橋さんが3人でビデオ通話している様子
登壇者:小岩さん、インタビュワー:神戸さん、PCスタッフ:高橋さんが3人でビデオ通話している様子

1. 異常の発見と初期対応

Q:最初に気づいた異常はどのようなものだったのでしょうか?
小岩さん:
お客さまの基幹システムをさくらのクラウド上で運用しており、主にWindowsサーバーの仮想マシンで構成しています。監視システムから「サーバーの応答がない」というアラートが最初に1台か2台ほど出たんです。

状況を確認するとセーフモードが落ちていて、再起動しても直らない。さらに他のサーバーでも同様のエラーが続々と発生しはじめました。

その時点では「クラウド基盤の障害かな?」と考えていましたね。

2. 原因の特定

Q:なるほど。最初は1〜2台から徐々に広がったんですね。クラウド基盤を疑うのは自然な流れですよね。
小岩さん:
はい、クラウド基盤が原因のトラブルでサーバーが落ちる例もあるので、最初はそちらを疑っていました。

Q:当時はセキュリティ製品が原因だとは想定していなかったわけですね。
小岩さん:
まったく想定していませんでした。監視アラートの対象サーバーを調べることに集中していました。

でも後からお客さまが「あるセキュリティ製品の影響で世界規模でトラブルを起こしているらしい」と知らせてくれまして。「あ、そういえば入れていたな」という感じで思い出したんです。

Q:電話で「セキュリティ製品が原因かもしれない」と聞いたとき、すぐピンときましたか?
小岩さん:
そうですね。「そんなセキュリティ製品あったな」と思い出して、正直驚きました。

普段あまり意識していなかったので、よけいにインパクトが大きかったですね。

3. 復旧作業の進行

Q:原因がセキュリティ製品だとわかった後の対処はどう進められたのでしょう?
小岩さん:
最初は海外の掲示板に“Windowsのsystem32配下の特定ファイルを削除すれば直る”という非公式な情報が出ていただけでした。基幹システムなので、そうした手順をいきなり試すのはリスクが高いですよね。

その後、公式アナウンスで同じ対処法を提示したのがわかり、そこから作業を開始しました。

Q:非公式情報だと、お客さまも不安に感じそうですしね。
小岩さん:
そうなんです。万一失敗してもっと大きなトラブルになったら大変ですから。公式からのアナウンスが出てくれて助かりました。

Q:復旧作業では、具体的にどんな点が大変でしたか?
小岩さん:
サーバーによって症状が違い、セーフモードでログインできるものもあれば、ログイン画面すら出ないケースもありました。

ログインできないサーバーはLinuxマシンを立ち上げてディスクをマウントし、ファイルを削除しようとしたんですが、なぜかsystem32が見えないなど、思わぬ障害が続いたんです。

サーバーごとに作業内容が変わるので、どうしても時間がかかりましたね。

Q:状況がバラバラだと、一括で対応しにくいですよね。
小岩さん:
はい。特にディスクの修復関連は一筋縄ではいかなかったです。

4. 被害範囲の広がり

Q:クラウド環境以外、オンプレミスにも影響があったと聞きますが?
小岩さん:
ええ。オンプレのサーバーやPC端末にも導入していた場合は、同じように起動しなくなる事例があったようです。私たちは主にクラウド上のWindowsサーバーを担当しましたが、被害範囲は広かったですね。

Q:クラウドであれオンプレであれ、導入していれば影響を受けたわけですね。
小岩さん:
そうなります。実際、かなりたくさんの環境で問題が起きたと聞いています。

5. 技術者育成と「ロストテクノロジー」への懸念

Q:最後に、クラウド普及による「ロストテクノロジー」の懸念をお伺いしたいです。
小岩さん:
今回のように、「仮想マシンが起動できない時にディスクをマウントして修復する」という高度な対応は、クラウド環境ではあまり必要ない場面も多く、若い技術者が触れる機会が減っています。

また、サーバーのカーネル調整なども、クラウド前提でスケールアウトすれば済むため、こうした低レベルの知識は“学ばなくてもなんとかなる”と思われがちです。

そのため、技術教育の範囲やコストをどう配分するかは大きな課題だと感じますね。

Q:昔ほど“必須”には思われにくくなっているということですね。
小岩さん:
そうなんです。でもいざという時に役立つこともあるので、完全に忘れてしまうのはリスクだと思います。

まとめ

クラウド環境における障害対応の実態や、未来の技術者に求められるスキルについて多くの示唆をいただきました。当日の発表では、さらに深い洞察や具体的な経験談が共有されることでしょう。「自分ならどう対応するか?」と考えながら参加することで、新たな学びや視点が見つかるはずです。ぜひ会場でお会いしましょう!

\このページをシェアする/