Crystal Dew Blog

Crystal シリーズの開発ブログです

例の論文をもう一度読む

全ての始まりともいえる

Failure Trends in a Large Disk Drive Population (PDF)
– Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andre Barroso – Google Inc

この論文では、S.M.A.R.T と故障の相関について以下のように述べています。

  • Scan Errorを初めて記録してから 60 日以内の故障率は 39 倍高くなる
  • Reallocation Countを初めて記録してから 60 日以内の故障率は 14 倍高くなる
  • Offline Reallocationを初めて記録してから 60 日以内の故障率は 21倍高くなる
  • Probational Countを初めて記録してから 60 日以内の故障率は 16 倍高くなる

ということなのですが、肝心の S.M.A.R.T の ID が書いていないので私は以下のように推定しました。

  • Scan Error : 0xC6 回復不能セクタ数
  • Reallocation Count : 0x05 代替セクタ数
  • Offline Reallocation : 0xC4 セクタ代替処理発生回数
  • Probational Count : 0xC5 代替処理保留中のセクタ数

寿命予測は役に立たずHDDは突然死する (A Successful Failure さん) では、

  • Scan Error : 0x01 読み込みエラー率
  • Reallocation Count : 0x05 代替セクタ数
  • Offline Reallocation : 0xC4 回復不能セクタ数
  • Probational Count : 0xC5 代替処理保留中のセクタ数

と解釈されております。

0x01 の読み込みエラー率は、Maxtor ドライブが対応していないことや Seagate 製ドライブはバンバン生の値が増加するということですし、違うんじゃないかなぁとは思います。とはいえ Offline Reallocation = 0xC4 というのも無理があるようなないような…

ただ、論文内に Reallocation Count のサブセットと定義するとあり、Wikipedia 等で調べた情報ではどこともマッチしないような…サブセットなのに 0x05 の値より大きいこともありおかしいなぁ~みたいな事も書いてあるし(誤解?) なんだか不思議な感じではあります。

結論:ウダウダ言っていても始まらないので、著者に聞くしかない。

【2008/5/25 20:50 追記】

  • 論文の著者に質問しましたが回答はいただけませんでした。
  • さらに色々調査した結果、A Successful Failure さんの説が正しいとの結論に至ったため 0xC4 を『注意』と表示する基準からはずしました。
  • 0x01 を注意の基準に含めるかどうかは検討中です。というのも、Seagate では生の値が増え続けることが知られており、他にもそのようなディスクがあるかもしれないので…

コメント&トラックバック

  • Comments ( 2 )
  • Trackbacks ( 0 )
  1. はじめまして。A Successful FailureのLM-7です。
    私のほうでも当エントリを読んで、
    著者に問い合わせのメールを送っていたのですが、
    やはり返事はいただけませんでした。
    とりあえずの結論的には当方の推定のほうを採用されたとのことで、
    エントリを修正しなくてすんだかな?と思ってます:-)

  2. >LM-7 さん
    コメントありがとうございます。
    この件についてはまだまだ悩んでいるのですが、著者じゃないと本当の
    ところはわかりませんし、回答がいただけない以上断定できない部分は
    はずした方が良いと考えました。(もし、違っていたら致命的なので)

    今回は回答がいただけませんでしたが、CrystalDiskInfo の知名度が上がり
    HDD 関係者なら誰でも知ってるよというぐらいにもしなれたら、もう
    一度質問してみようかと思っています。

コメント

*
*
* (公開されません)

Return Top