■[1]タイトル  「ネットワーク機器の信頼性に物申す」 ■[2]発表者  パネルチェア:芝村 正志(ネクストコム)       以降(ネ)  パネリスト :大西 一朗(シスコシステムズ)     〃 (シ)        :安田 圭一(古河電気工業)       〃 (古)        :酒匂 康博(物産ネットワークス)    〃 (物)        :任田 大介(NTTコミュニケーションズ)  〃 (N)        :笹木 一義(アバヴネットジャパン)   〃 (ア) ■[3]時間 2003年1月24日(金) 15:20〜16:50(実際15:25〜)       ※発表 質疑応答(16:12〜) ■[4]発表の焦点・論点・議題  [3-1]芝村さん(ネ) ・今回のJANOGのテーマはL2,L3が大半だったが、本セッションでは、  レイヤの低い内容について議論する。 ・レイヤが低いと言えども、機器が停止するとオペレータは右往左往しており、  影響大な部分であり、重要である。 ・メーカ、ベンダ、ユーザのそれぞれの立場から話しを聞きたい ・会場も参加者も含めて有意義な議論をしたい。 ■[5]パネル個別発表 □[5-1]大西さん(シ) ○タイトル ネットワーク信頼性を向上させるためのシスコシステムズの取り組み ○はじめに ・品質本部に所属しており、ソフト専門に携わってきた。 ・いくつかの大きなトラブルの教訓として、2年くらい前からHWに力を  入れ、成田の倉庫で出荷前検査をしている。 ○信頼性の3つの柱 ・ネットワークデザインをきちんと設計すること ・ハードの高耐久性、信頼性をあげること ・ソフト(IOS)のバグを減らすこと ○国内向け品質センターの紹介 ・米国で問題なく出荷された製品を、国内ユーザ用に更なる品質チェック  をしている。 ・維持費は30億/年? ・今年の7月までに国内に出荷している7割をカバーする予定。 ・このような施策は日本だけ。 ・品質検査能力の10倍、人員は150人体制を年内に目指す。 ○今後にむけて ・まだまだIPの世界は進化を続けている。 ・サービス断しないでネットワークをUPDATEしていくことが必要である。  よって、二重化することをお勧めする。 ・HWに関しては、できるだけ長く使っていただけるよう、  シャーシとパッケージを分けて提供し、時代に合わせてエスカレートしてく。  このときNWを絶対に停めないというのを目標に動いている。 □[5-2]安田さん(古) ○タイトル メインのタイトルと同じ ○はじめに ・ファイテルネットワーク研究所 IPチームに所属している。  ネットワーク機器のファームを開発している部署である ・平塚にある事業所の一画にあるビルにネットワークセンタがあり、  ネットワーク機器の研究/設計、開発/量産部門までが同じビル内にある ・主な製品としては、G80、G20、G12、R10(RR専用装置)がある。 ○保証体制 ・ネットワークセンターの体制図を紹介  事業部長の写真つき。     ○信頼性確保について ・設計段階での信頼性確保  ファームについても、内製しており、専門の評価部隊により  専門の評価試験を実施している。 ・ハードについては,クリアラップ試験に加えて,マージン試験として,  電圧、温度、湿度・クロック,そして長期信頼性試験、イレギュラーテストも実施 ・出荷試験は電圧、衝撃、高温の環境試験基本機能、通信負荷試験、  疎通試験等を実施している ・ロット管理や試験履歴の管理 ・改善としてQC活動や提案制度を実施    □[5-3]酒匂さん(物) ○タイトル 物産とFoundryによる出荷前テスト ○はじめに ・国内で出荷する前の出荷前試験について紹介する ・米国での製造時のクオリティーチェックも紹介する。 ・Foundryは600人程度の会社である ○米国での出荷前テストについて ・Foundaryは自社で工場をもっている。 ・製造後、Foundry本社にあるチェンバーで40度に  あげてBurn-inテストをする。長時間試験も実施。  問題あれば、当然自社内で迅速に修正している ○日本での出荷前テストについて ・Foundary製品は、1997年から三井物産にて国内販売をはじめ、  2001年に分社化した。 ・成田に倉庫をもち、検査をしている ・ファン、LED、目視、電源、自己診断テストとうを実施 ・日本人の目からみて、問題あれば修正する   内容:Console、振動、通電3日間、IF動作試験、添付品確認      OS設定等 □[5-4]芝村さん(ネ) ○タイトル メインのタイトルと同じ ○はじめに ・カスタマーサービス部に所属。 ○メーカに物申す ・既に壊れている(初期不良)のはやめてほしい。 ・納入した製品が全部壊れている(ロット不良)も困る。 ・シャーシーを壊す電源もあった。 ・徐々に壊れていくのも困る。 ・最近ではメーカも努力している。日本独自の出荷検査を  してくれるので良い。その結果、品質はあがっている。 ○ベンダーに物申す ・出荷検査体制は、完璧な環境ではない  検査作業員の職人芸に頼っているのが現状  シスコさんの体制はうらやましい限り ○ユーザへ物申す ・いつもお世話になっております ・でも、設置環境には配慮してほしい ・熱、ほこり(コピー機のよこは駄目)、電源設置、ゴキブリ  には注意。 ・フル搭載等カタログにはできると書いてあるが、やめてもらいたい ・納期や値引きは辛い。 ・余裕をもって発注してくれると助かる □[5-5]任田さん(N) ○タイトル メインのタイトルと同じ ○はじめに ・マシンを使っている立場から発表する ・OCNの技術部門で設計、機器選定、評価、導入支援をしている ・最近はL3系も多くなってきた ○NW機器との関わり ・導入前の試験では、HW要員の不具合はなかなか見抜けない ・導入後には、見つけるのが大変な、複雑な状況が。。 ○障害例1 ・あるL2SW。3年ぐらい安定していたのだが、※グラフ表示   ○障害例2 ・プロトコルがゆれてSW化と思いきや、HW障害だった。 ○ある収容装置のHW故障 ・疎通障害・パケットロス ・6ヶ月で10件ほど、 ・パーツ不良、正常不良も、ちゃんと検査してる? ○製造/機器品質 ・どんな項目でチェックしている?基準やポリシーは? ・トラブルはフィードバックされているの?   ○故障管理 ・必要な情報をユーザに上げて欲しい ○アーキテクチャ ・シャーシ、モジュールの造り、筐体の故障、部品設計、基盤設計  この辺のポリシーを聞かせて欲しい。 ○メモリ、キャッシュの造り ・メモパリERR クラッシュ/アドレスERRでクラッシュ/サイズ不足 ・動作の信頼性向上  十分なメモリ・キャッシュを搭載可能にして欲しい ○安定稼動のための仕組み ・今日の装置は、安定しているが、よりいっそうのために、無瞬断を目指して欲しい。 ・網として安定するように。。 ○網の信頼性をどう担保する? ・機器自体の品質向上か、網構成か? ・網内部は構成、エッジは機器の信頼性でしょう。    □[5-6]笹木さん(ア) ○タイトル 「データセンター屋からも一言」 ○はじめに ・障害がおこったら客にあやまるしごとをしています。。。 ・ASを二つ保有 ・データセンタ 13台:国内ノード ○サービス断の統計を説明 ○自衛方法 ・無茶をしないこと、障害は発生するのはあたりまえ、 ・リソースの監視、N+1 ○ベンダに言いたいこと ・中途半端に停止する装置は困る ・原因不明なばあいは、ベンダにいっても、OSVerUPと言われてしまう。 ○要望 ・有効なプロテクション機構を開発してもらいたい ・異常動作に関する情報の収集と、ユーザへの情報公開 ・信頼性の高いアーキテクチャ 日本ベンダ勢に大きな期待をもっている。 ■[6]質疑応答〜4:12より〜 □司会者からの質問に対しての注意点 ・SWのバグは除くこと ・自分たちで起きている問題を議論し、憶測で語らないこと ○Q1. 紫色のある装置は電源がすぐにこわれる。 電源は二重化されているが、運用中のままでは交換ができない。 今年度だけで、4,5回は起きている。 あとシスコさんへ、C7206の調子悪いから、モジュールを交換したが 直らない、全部変えても何故か直らないことがあった。 勿論NW側のせいではない。 代替品の出荷検査ができていないのでは? そのおかげで、何ヶ月か使えなかった。 全体的に、北米製の電源まわりの考え方がおかしいのでは。 日本製で壊れたことはほとんどない。北米も見習いなさい。 電源だけ日本から買ったらどうか? A1. (シ) C7206に関しては思い当たる節がある。 1年発つと、同じ型番でも違うパーツになっていることがある。 NPE300のエンジンのリビルド品を再検査している。 新品はお客様に渡す。 代替えの品質管理は気をつけて実施している。 現在14カ所ある品質センターを、年内には74カ所に拡大する 予定。これからは大丈夫である A2.(ネ) 同意見。 米西海岸製の電源は、日本の多湿環境では不安定。 コンデンサが壊れる。USの検査部門に出すと 湿度の違いで再現しないらしい。再現しないので 要求ができない。メーカと交渉しているところである。    ○Q2. ユーザもISPも使う製品はかわらない。お客様には H/Wはこわれるものという意識をうえつければ? 強く言うべきでは? MTBFの数値だけだと意識しにくいので、ベンダも含めて 意識をあげることはどうか? A.(シ) 賛成です H/Wに頼るのは大変だと認識しながら売っているのが現状。 C7206では3万台近く動いている。NWを止めないであげるには二重化が必要。 お客様にはメンテナンス可能な構成を取ってくださいといっている。 コストはかかるが、将来的には安くなると提案している ->死ぬときはちゃんとしんでほしい(ア) ○Q3. ユーザへのトラブルについての情報や管理方法の告知をメーカ、 ベンダ側から積極的にしたらどうか? WEBで公開は無理でも、それなりのラインや流通経路を使って、 情報の管理や流通の方法をつくれないか? 一例だが、メーカーが、マイナーなトラブルをユーザに隠していた ことがあったらしい。 A.(古) フィールドでのキャリア向けのトラブル件数については母数が少ないので、 フローにするのは難しいかもしれないが、適宜、情報を報告し、 対処していく仕組みは既にある。 一方、SOHO向けについては、部品のロット等の障害があった場合、 マーケティング部門→品質保証部→部品メーカへ問い合わせを実施し、 その結果をユーザに対して告知をしている。 ○Q4. 切り分けの難しい障害が多く、どうにかしてもらいたい C7600シリーズで困ったことがあった。 死んでいるように見えるが、パケットフォワーディングは生きていると いうがあった。コンソール操作も駄目だった。 死ぬなら、ちゃんと死ぬのがほしい。 AC電源ではフル搭載できないので、DC電源を買えといわれたことがある。 DC電源を買ったときには、ブレーカごと買ったが、これらを搭載した状態で、 確認試験とかしていますか? 運用を考えたルータ設計にしてもらえないか? A.(シ) まず、告知方法は、WEBサイト(社員のみ閲覧可能)、及びCCOの2つが存在する 但し、100%社員が見れるWEBサイトでも、4つくらいフィルタがあって 気付かない場合もある。お客さん対応時に気が付くこともあるが、 隠すつもりはない 異常が観測された時、CiscoのIOSでは必ずrebootする設計になっている。 watchdogタイマー等でしっかり装置を監視しており、IOSで診断して 問題あらばrebootする設計になっている。 よって、「疑わしきはすぐ、reboot」     更に、30秒程度の短時間できりかわるよな工夫をしている (続き) HW障害の場合が起きた場合や、フルルートを受信→メモリが枯渇→ reboot→フルルートを受信→メモリが枯渇。。。。 rebootの繰り返しになるのは避けたい。落ちたままにできないか? A.(シ) そんなシステムはないと思う(シ) BUSとメモパリをwatchdogで監視している。 また、IOSでrebootさせるシステムは、2年くらい前から 良くなっている。最近は落とさなくなってもよい 場合があり、出来る限り救済する設計にかわってきている。     最近はできるだけ、おとさないように!  今後は、やみくもにrebootさせることはないと考えてください A.(古) ECC付のメモリの場合でも1bitのエラーは訂正できるが,2bit以上の エラーはECCの仕組み上訂正できない。我々の考え方はこのような場合 には,自動でresetするが,reset後diagルーチンが走り,そのdiagで 上記エラーを検出し,装置を停止する仕様となっている (続き) 例えば、5回rebootを繰り返した後は、上がらない(=停止する)等の 制限があっても良いのではと思った。 ○Q5. ある紫色のSWはここ4年ほど落ちていない。特異なケースか? 北米の電源はよく故障する。電圧の違いにより故障しやすい事例はないか? A.(シ) 個人的には2件程経験した。湿度、電圧が起因であり、 電源部分のパーツの信頼性が影響していると考えている A.(ネ) 高温多湿が影響することもある。コンデンサに微少な傷があった場合、 日本の多湿環境により寿命がはやくなる場合がある。 6,7月はトラブルが多い傾向があるようです。 (続き) 高湿環境をつくって試験すればよいのでは? A.(ネ) 持っているが、U.S.に持って行く間に、乾いてしまいU.S.での 再現が難しい ○Q6. アースの環境が影響することはないのか? A.(シ) 個人的には電源関係はあまり詳しくないので参考であるが、 かつて全国規模でNWを組んでいるユーザで、ショートした事例があった。 ゴキブリの卵が原因。アメリカでは起きない    尚、日本の場合、夜間は電灯を切るのが一般的であるが、U.S.では    夜間でも電源をつけている。夜間は安いから。    アース系のトラブルは、ISPの場合では、環境が整備されている分、    ほとんどないと思うが、エンタープライズユーザではあることだ。 (続き) メトロイーサとかで、ビルの片隅にエンタープライズルータを 置くこともあるので、日本の状況に合わせたつくりにして欲しい。 ○Q7. 過去に添付品のキットではラックマウントできないことがあった。 耳のネジがはいらないことがあった。事前チェックはどの程度やっている? A.(物) 実際に装着試験をすると耳はキズがつくのでそこまではできない。 目視確認で交換することは以前にあったが、試験するまでは難しい (続き) ネジ穴にバリがあって手を切ったことがある。そのようなことも 事前の確認のときにあるのか?    A.(シ) 多々あるかと思う。 また、C7000系のモジュールが筐体に入らないことがあった。 開発環境で使用している筐体はプロトタイプであり、量産する 筐体とサイズが異なっていたためにこのようなことが起きたことがある 因みに、U.S.では、モジュールを筐体に挿入/抜去する試験はしていないが、 日本では成田の出荷テスト環境で実施している ○Q8. 遠隔地に置いてある装置が外的条件で止まる場合があった。 特に気温が上昇したときに、熱いぞと叫ぶルータや、フロントパネル でランプを点灯させる等で表現できないものか? 自分は、農学部なので、ゴキブリセンサーについて早速考えて みます(笑) ■[7]まとめ まず、本セッションが大盛況であり、良い議論ができてよかった。 まとまると以下になる   ・バグ情報のデータ等、(3者間での)情報の共有が今まで足りていなかったと感じた ・H/Wは壊れることが前提であるという解もあり得るのだと感じた(言いにくいが) ■[8]所感  大盛況で良かったです。また、"論"をする時間が最も多く取れた  セッションで、様々な意見を交流できたのではないかと思います。  ただ、予想はしてましたが、ユーザ側への質問がありませんでした。  "まとめ"のなかで、3者間の情報共有が必要という意見には全く同感です。  が、せっかくのJANOGなのだから、普段は難しいユーザ間の情報共有のため  にも、どんな運用をしているの?とかユーザ向けの質問もあると更に  良かったと感じました。   ■[9]ロガー  長野 悟 (NTTコミュニケーションズ)  竹内 彰矢( 〃 ) 皆さまお疲れさまでした。