1. タイトル 大規模サーバ管理者の苦悩 (笑) 2. 発表者 伊勢 幸一 / スクウェア 田中 邦裕 / SRSさくらインターネット 3. 時間 1月23日 14:00 〜 15:05 発表: 質疑応答: 4. 発表の焦点、論点、議論 多くのユーザにサービスを提供したり、大量のトラフィックを処理する必 要がある場合には、サーバの台数を増やして処理能力を増加させる手法が 一般的に行なわれている。しかし台数が尋常でない規模になってくると、 発熱量の増加、故障率の増加等に対応するため、様々なノウハウが必要に なってくる。本セッションでは、PlayOnline、大規模ホスティングサーバ、 の事例を紹介し、大規模サーバ特有の様々な問題について議論を行う。 5. 発表の流れ ------------------------------------------------ パネル発表: 伊勢 幸一/スクウェア ------------------------------------------------     サーバとはなんだ? 昔から言われているサーバクライアントはサービスを提供する側とサービス を受ける側とで分類されていたが、最近はサービスを受けながらサービスを 提供するといったシステムが出来あがっている。 この際、こう言い切る サーバとはビットマップディスプレイが常時接続されていないコンピュータ 群である。システムとは同一等価組織で統轄されているサーバ群である。 スクウェアではオンラインサービスを行っている ・サーバは1500台くらい使っている。 ・東京都内某所のDCにハウジングしている。 ・トラフィックは、毎日600Mbpsから650Mbps出ている。 ハウジングについて 大規模なサーバを構成する場合、ラックの前後に分かれて作業をする場合が ある。ちょっとした打ち合わせなどに、作業をし易くするため、5台にたい して1台ぶんのラックを開けている。運用上、この方がやりやすい。 大規模システムにおける事例 「苦悩」とは「試練」とは異なり予想しない事態を指す 事例:FFXiクエストより ・1000台ものサーバを搬入する時に場所がない。 →仕方ないので250台ずつ搬入する。 ・温度が上がる。 1000台一気に電源を上げると温度が上がる。空調については注意しなけ ればならない。床下のケーブルが邪魔して冷気がラックまで流れない。 空調のシステムの配置場所と床下の配線には注意が必要。 ・サーバを設置しすぎて床がゆがんだ。 ・パッチパネルとパッチパネルの間がSMFだった。SMFとMMFを間違えてい た。 ・障害の原因は床に敷設した光ファイバーを踏まれていたことだった なにかおかしいと思ったら上の階層から見てしまう傾向にあるが、下の 階層からチェックするのも一つの手である。 ・マルチホームで経路交換している場合「/16」のところを「/24」で広告 されてきてルーティングテーブルが増加してしまった。 ※注意しなければならない点 ・温度計は必須である。異常時はメールで知らせるなどの考慮が必要。 ・NFSサーバのバックアップ。 ・ルータをメッシュで繋げる ------------------------------------------------ パネル発表: 田中 邦裕/SRSさくらインターネット ------------------------------------------------ タイトルに『CHAOS編』とつく由来は後程… 「大規模サーバ」とは? 想像できないことが生じるサーバ群 (例1)ジャイアント馬場さんが亡くなった際に何十万ページビューのサイト があり、LoadAverageが100に (例2)2002年ワールドカップの際 お金をかけたらいいのかも知れないがかけられないし、単純にお金をかけた からといってよい、というわけでもない。 さらに2種類の定義 1) 自社コンテンツ (例)スクウェア 2) 他社コンテンツ (例)SRSさくらインターネット←『CHAOS編』の由来 運用しているサーバには以下の2種類がある Web Hostingサーバ 専用サーバ Web Hostingサーバ 概況 ・現在2億ヒット ・800Mbpsのトラフィック よく起きて困ること ・よく起きても想定できることは当然対処できる ・困るのは顧客の『他のサーバではなかったのに…』の一言 ・監視方法 a)CPU温度でLoad Averageを測定する方法にトライ →分からなかった →自作ツールを作成 b)ディスクエラー →レポートの行数をチェックし増えたら異常発生と判断 専用サーバ 予知できるが防止できないこと ・ウイルス/セキュリティホール →現在は8時間ほどで対応完了 ------------------------------------------------ 質疑応答 Cはコメント ------------------------------------------------ Q. 「うちはもっと辛い思いをしているよ」という人はいるか? A. 熱対策空調が2台あった。古いシステムを動かしたまま新しいシステムを 導入した。計算上は問題なかったが1台づつ壊れた。 Q. 熱問題について、どういう風に回避したのか? A. ケーブルを撤収した。2重化してるので片肺ずつはずしたので特に問題は なかった。 ラックまではGbEで持ってきてラック内で100baseにし、パッチパネルから 本体までの敷設本数を減らすようにした。 (これらの対処が済むまでは業務用扇風機を利用) 全部1Uだと真ん中あたりが熱くなる。5Uおきに1Uづつ開けておく。 (伊勢) C. 上記と似たようなことをしているが常時60度ぐらいはしている Q. 窓のない自家発電装備つきのサーバルームが完成したが、問題はやはり温 度だった。 空調がガスヒーポン。ガスの流量をチェックしている部分が振動やガス漏 れを誤って検知するなどたびたび空調が停止する。一瞬にして室温が60度 に…。 『サーバ室には窓が必要ではないか!!』 A. たまたま使っていたデータセンタには窓があった。(伊勢) Q. もともと事務スペースだったから? A. Yes (伊勢) A. NTTファシリティが作った空調は壊れない。空調が故障するというのは良く ある。窓をつけるのは良い案である。空調にはコストをかけた方が良い。 (田中) Q. 窓がどうしてもない/窓を空けてももどうにもならない時の対策としてスポッ トクーラーをサーバルームに5台用意している。スポットクーラーは冷気を それなりに出すが、それ以上に熱を後ろから排気しているので注意が必要。 自分達は対策済ではあるが、廊下まで排気できるような機構のついたスポッ トクーラーがあれば、もっと楽になる。誰か知りませんか? A. 使ったことがある。 クーラーが向いているところは冷えるが、そうでないサーバには一切効果 がない。(伊勢) C. 下水工事の際に利用されている強制排気の蛇腹があるくらいだから可能で はないか。 Q. スポットクーラーの水対策は? A. 排水機構のついているものだったのでそれを利用して外に流した。 水と言えば情報産業に慣れていないところが作るとスプリンクラーがサー バルームにあったりする。当然変更してもらった。 また、オフィスビルに作ったサーバルームで雨漏りがあり、急遽キャンプ 用のケープを大量に購入し、サーバにかけて守った。 (伊勢) Q. ハウジングスペースの「倉庫番」作業で耐加重問題も含めて考える必要が あるようだが、「ここは弱いので通さないでください」という話は? A. ないです。(伊勢) C. カタログ表記では650kgのものが実際には800kgあり、仕方ないのでビルの 構造を調べ、梁のあるところに設置。カタログは後日訂正されていた。 C. 普通のビルをサーバルームにした。 重さ対策として梁は通した。 天井にスプリンクラーがあったので、ハロンに変更。ボンベが重いので、 1Fに小屋を作りそこに設置。 Q. バックアップっていうのは本当に取った方が良いのか? A. 取ってないことになっているが、障害時の復旧用に週に1回以上は取るよ うにしている。20Gだったら1時間はかからない。(田中) A. 1ノードが壊れた場合には別のマシンにする。(抜き挿し) 社内向けのサーバに関してはバックアップ系も本番用と同じスペックのも のを使っている。障害対応中もユーザは自分の作業を進めたいのでスペッ クが劣っていては困る。 テープでのリストアには時間がかかる(48hほど)のでDisk to Diskでバック アップしている。バックアップ時間にかかる時間を考えるとその方が良い。 ちなみに今まででバックアップを使った事はない。 C. 備えをちゃんとしているときにはトラブルは起きないものらしい。 Q. バックアップはコストがかかるがやっておいた方がよい。ブレーカーがロッ ト不良で落ちた事がある。DISKtoDISKでもブレーカ壊れたらどうする? ど うやってもダメ? A. PRIとSEC両方とも落ちた場合には逃げます。(笑) 今のところリクエストはないが、その対策を指示をされたら大阪などに別 のセンターを用意してくれ、と回答するだろう。(伊勢) Q. 電源容量はちゃんと調べておかないと結構危ないのでは? A. 電源には苦労していない。ハウジング側にお金を支払えば対応してくれる ので。(伊勢) A. 1Uの増設で1ラックあたり20A増加する計算になっている。(田中) Q. 今の機器は電源を食い過ぎではないか! ラックの上から下まで1Uサーバを入れるのはやめて欲しい。1ラック25台く らいが希望。ラックを買うよりは電気を買ったほうが安いと思われていて 困る。おかげでCVCF装置の増設に次ぐ増設となっている。 Q. 全体を通しての意見は? A. 建物レベルから考える必要があるのではないか? Q. ブレードサーバは使う気になりますか? A. アメリカのようにオープンな空間にあるデータセンターなら大丈夫だろう が、日本では冷やせないのでは? C. 事例は載っているが見たことがない A. 1Uの方が値段が安い。ブレードサーバは以外とコストが高いのとIntelの CPU更新についていかないのではないかという判断もあって利用していない (伊勢) A. ブレードサーバはコストが高い。現在自社設計で1Uを1台を6〜7万円で作っ ている。重さ、熱、コスト、電源どれを考えても1Uの方がよい。(田中) 6. まとめ 大規模サーバ運用にあたり、もっとも話題にあがったのは、データセンタやサー バ設置場所における熱問題とバックアップ問題。 熱問題・空調問題 ・扇風機は使える ・センター内には窓が必要 ・サーバマウント時において工夫が必要 ・空調機は壊れることを前提に考える バックアップについて ・バックアップはコストがかかっても、やっておいた方が良い ・完全なバックアップを求めるならば、別センターの設置も考えた方が良い 7. 所感 ロガー: 後藤 陽一/JENS 質疑応答がかなり盛り上がったように感じた。データセンタの熱・空調問題 だけで半分の時間を使っていた。発表者は二方とも大規模サーバの構築・運 用を行っているので、同じ職種の人達にとっては参考になったプログラムだっ たと思う。個人的にもデータセンタ運用に携わっているのでいろんな意味で 参考になりました。 ロガー: 岡松 伸太郎/ジークエスト パネルのお二人はロガ─である自分の手が止まりそうになるほど、楽しく、 ひねった表現で、日頃の「苦悩」を披露してくださった。ログは載せ切れな い部分はぜひ発表資料を参照して欲しい。 「苦悩話なら負けないぞ!」というわけでもないとは思うが、参加者との質 疑応答も盛り上がり今回の「論」のスタートとしていいセッションになった と思う。 個人的には大容量データのバックアップに関しては興味があった。今日のディ スクの大容量化に対して、リストアにかかる時間を考えると現行のバックアッ プ機器は対応しきれていないのではないかという印象があったが、今回の話 でもそういう印象を受けた。もう少しこの点についていろいろな意見が聞い てみたかった。