[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[connect24h:10876] Re: SATA+RAID1+HotSwapの1Uサーバ構成



solでございます。

On Fri, 19 May 2006 19:00:32 +0900
Jun OKAJIMA <okajima@xxxxxxxxxxxxxxxxxx> wrote:
Subject: [connect24h:10874] Re: SATA+RAID1+HotSwapの1Uサーバ構成

> ・・・いや、マジっすか?

はい

20年弱で、両手の指では足りない程度の回数です
無事に交換出来た例が圧倒的に多いです。


> が、復旧中にもう一個・・・というのは一度もないですし、
> 直接それを経験した、という人に会ったこともないんですよ。
> 
> そういった話はたしかに聞きますが、
> 「友達の友達が昔、あそこでバイトしてたんだけどさ」
> 「某ハンバーガーの肉はじつは・・・」
> というのと同じレベルの都市伝説かな、と思ってたんですが。
> 
> このあたり、どーなんでしょうねぇ。
> SCSI HDDの MTBF からして、

この6年間では、大半がATAです。
ここでも話題に出ることがありますが、雰囲気温度が問題になる環境が多いです。

発熱量多すぎるんです。
ラックはそう簡単に更新されませんし。
CPUもそうですし、HDDも回転数は上がるし搭載台数も増えるばかりだし。

筐体はどんどん薄くなって1Uで十分高性能
HDDサイズは変わりませんし、CPUは巨大になるし


3-4Uが1Uになって、HDDも増えて高速になって
単位体積あたりの発熱量は、すごい勢いで増えています。


本番環境でテストのための熱加速試験をしているようです。



リビルドには数時間以上かかりますが、その間に逝きました。

運は良い方らしく、RAID 0+1 で A-A、B-Bという構成になります。
A 2台ともとか B 2台とも出なければ、2台逝っても使用できます。

完全にだめになった バックアップから復旧は片手の指で十分です。


いつどこでというのは公開できませんが。


筐体側が故障し玉移植(HDDを予備筐体に入れ替える)で動作するはずの機材
予備筐体に玉を移植しても、動作しないばかりか、自動リビルドが走りHDDを初
期化されたことも数回経験しました。




一ヶ月に同一型番のRAID装置が3台逝ったのが一番きつかったときです。
1回は、玉が2個逝き、バックアップからの復旧を試みることになりました。
(RAID 0+1 構成)


該当の装置はかなり安いものです。

1UのDAS
HDDはATA
サーバーからはSCSI HDDに見えるものです。



> 復旧作業中にもう一個いく率はとても低いはずなんですが。

MTBFから導かれる確率は、正常な状態での障害までの平均時間。
障害発生中(対応中)の障害発生率はまだ見たことがありません。

マーフィーの法則なるものが存在するなら、故障中には更に故障が発生しやすい
のでしょうか。


1システムの障害対応中に別systemの障害対応に追われることは何度もあって数
えられません。

同時に3システム以上の障害もありましたorz


RAIDを使用するシステムは重要度も高く、
経験する人は限られ、また、発言もはばかれることもあるのではないでしょうか。

CE以外が直接対処するのは普通なのか疑問です。
私はCEであったことはありません。

直接対処していないと、実際にいくつ壊れたかは報告を信じることになります。
受託者の立場だったら、2台逝っても復旧できたら(それがバックアップからで
も)報告するかどうか会社に委ねるだろうと思います。



今年現場を離れたのでふと書いてしまった
# 手が滑った:)

という感じです。
(定年とかではなく、移動になっただけです)

システムの相手をしているときは、この種の情報は公開しませんでした。
(書いてもあやふやに、機械を信用するなくらい)



ということで、昔話として書いています。
# Dog year! ならぬラット・イヤー でしょうか



誤解があるいけませんので
圧倒的多数は寿命まで無事に使えるのではなかと思います。

ホットスペアーも、予備に購入した交換用のHDDも使用することなく、無事に寿
命を全うしてもらったRAID装置も多数ありました。



かと思えば、転職したばかりの会社でRAID 1 構成のディスクが両方同時に死ん
で復旧不能になったこともありました。
(ATA HDD 2台構成)

そこでは、HDD故障を続けて3回経験させていただきました。
同じ型番のHDDです。

社長に掛け合い、全HDDを交換、以降発生しませんでした。



HPのマシンでHDD自体は壊れないのに、SCSI部分(HDDそのものについているコン
トローラーです)を2回交換したHDDもありました。
データは何事も無いように使用できました。


12-18ヶ月で10%以上のHDDが故障するということも3回経験しました。
そこそこのデータセンターに入れていました。
(RAID構成で使用した例と、HDD 1台のみのweb向けサーバー的な構成例がありま
す。)






質問というか疑問があります。

大昔メーカーの技術者に教わったとき

・HDDは同一ロットでそろえるべし。

微妙な差が、コントローラーに負荷をかける
HDDからみても無駄な回転が増えることにつながる

と言われました。

信頼していた技術者の言なので、そのころは同一ロット保障のあるHDDを将来の
故障交換分と増設分も含め一括で仕入れていました。

# 大半はロット無視でした
# 稟議の都合で初めにお金を使えても、追加は難しいとき
# 多少の差でも無視できない用途のとき
# 程度です。


適当にそろえたものより同時期、故障頻度は低かったです。

そのような買い方、もったいないので同時に玉が逝くことがあったと言うときの
台数ほど扱っていないので、母集団が少なすぎ、データの正当性がなんともいえ
ません。

RAIDで使用するとき、HDDのロットは変えたほうが良いのでしょうか。

-- 
sol <ml@xxxxxxxxx>



--[PR]------------------------------------------------------------------
  ___┏━━━━━━━━━━━━━━━━━━━━━━━━┓___
  ☆…☆┃ 豪華賞品あれこれまとめてセットで当たります! ┃☆…☆
   ̄ ̄ ̄┗━━━━━━━━━━━━━━━━━━━━━━━━┛ ̄ ̄ ̄
        懸賞ならココ!ふくびき.comであなたも運試し♪
       http://click.freeml.com/ad.php?id=108990
------------------------------------------------------------------[PR]--
■GMO INTERNET GROUP■ GMO INTERNET www.gmo.jp