読者です 読者をやめる 読者になる 読者になる

せーブログ

買物する際にお得かどうか調べちゃうくせに後で同じ事を調べ直してばっかり。なので記録を残す事に。似た状況の人の轍になれれば

データバックアップ、NASかクラウドか

はい、今日はバックアップの話。

バックアップにお金をかけていたのにデータ消失危機

先輩の知り合いの方が「NASにデータを保存していたら壊れてデータ消失の危機にあった」という話を見かけてので概要と周囲の反応に対する個人的な感想をまとめた。これなかなか難しい問題なんですよね。概要はこんな感じ。

  1. HDD(ハードディスク)2台構成で片方が壊れても安心!というNASを信用して使っていた
  2. RAID1だったがRAID自体が崩壊して読み書きが出来なくなった
  3. メーカーから薦められたデータ復旧サービスは80万~125万
  4. 他の業者に頼んだら5万で復旧出来た。良心的!じゃあ80万~って業者は何なの?悪徳商法

2つのHDDだから安心!は嘘?

2台構成のうち1台が壊れてもデータが無くならない!という謳い文句は事実です。気づいてすぐ適切に交換をすればデータは無事です。そこは嘘じゃない。問題は故障するケースがもう1種類あるって事。2台を束ねる仕組みをRAIDと呼びますがここが壊れたら復旧が難しくなる。マニュアルにはRAID崩壊時の対処手順のところで「データが初期化されます」とだけ書いてありました。書いてはあるけどここまで読むのはおそらくRAIDが崩壊した時だけっていう不親切さ。でもまあHDD故障率よりRAID崩壊率のが圧倒的に低いんですよね。かなりレアなケース。

HDDが無事でもRAID自体が故障すれば読めなくなる

RAIDという仕組みは複数のハードディスクを1つのハードディスクとして扱うので何らかの仕掛けがあるわけです。今回はその仕組み自体が故障してしまった。
f:id:kuiperbelt:20150720122355g:plain
RAIDには2種類あり、ハードウェアRAIDであれば部品交換すればデータが復活する可能性もありますが該当機種はソフトウェアRAIDと呼ばれる仕組みなのでそれも出来ません。もちろんRAIDコントローラ自体の物理的故障もありますし高価なのでソフトウェアRAIDがダメって事ではないです。

本当にHDDは故障していなかったのかどうか

RAIDについて何よりもまず大前提として覚えておくべきなのは「HDDが故障しても使えてしまう」という点だと思います。なので「使えてるから問題ない」という認識でいるとリスクが高いです。今回のケースでは製品をメーカーに送っていないようなので口頭で状況説明した結果、「RAID自体の故障」という判断になっていますが実際の故障の順序と違っている(HDDが先に故障した)可能性もあります。

HDD異常に気付きにくい環境

ハードディスクに異常があればアラート音が鳴ったりランプが点滅したりしますが

  • アラート音は発生時に10回鳴るだけだったりするのでその場にいないと気づけません
  • ランプも見やすいところで点滅していれば気づきますがそうでないと気づけません

NASはケーブルさえ繋がっていればどこにあっても問題はなく邪魔なので目に付くところに置かない人がほとんどだと思います。それが普通。そのこと自体は悪くない。

見えにくい場所に設置したら小まめに確認を

大切なのは目に付きにくい場所に設置する場合は定期的に管理画面で異常が無いか確認する事です。他にも

  • 電源のオンオフは正しく行われているか?*1
  • 熱がこもりにくい場所に設置しているか?

などで故障率を下げる工夫も手間の割に効果が高いです。温度に関してはGoogleが10万台のHDDを調べた結果、30~40度が最も故障の少ない温度だったそうです。ちなみに冷房を入れない夏の部屋で壁際だと風通しも良くないのですぐ60~70度ぐらいになります。

データ復旧サービス80万はぼったくり?

高額=ぼったくり、とは限りません。高額な請求をする真っ当な復旧業者は設備投資や技術習得にコストをかけているからです。クリーンルームを自社に持っていて必ずそこで作業する業者もいます。病気になった時で言えば「世界最先端の設備が整った病院で世界的権威のある医師に手術してもらう」と考えればわかりやすいかもしれません。我々一般庶民が世界的権威のある医師に診察される事はレアですがデータ復旧業界の最先端、最高技術は庶民でもアクセス可能ってだけだと思います。単に「復旧させたいけどそこまでコストはかけられない…」と別の業者を当たりましょう。

5万円の業者は良心的?

安価=良心的、とは限りません。例えば今回はRAID1での故障だったので単純に考えれば2つのうちどちらかのHDDをLinuxの入ったPCに繋いだらそれだけで復旧したかもしれません。4TBなので時間はかかるでしょうがファイルコピーだけならPC前にずっといる必要もないのでその場合は5万円でもぼったくりに近いです。まともな復旧業者であれば持ち込まれたHDDを直接復旧させるのではなく、まずクローンを作成してそのクローンに対して復旧処理を試します。クローンであれば失敗しても本物のHDDは別に存在するのでデータは消えません。そういう手順をすっ飛ばす業者は時間がかからない(人件費が安く済む)ので安くなりますが当然データ消失リスクは高くなります。一方で80万の業者はどんな状況でもほぼ確実にデータを復旧させます。

確率の低いリスクにどれだけコストをかけるべきか?

今回の事故は本当に稀なんです。そしてレアケースまで防ごうとするとどこまでコストをかけても絶対にはならない。さらに地震や火事など自然災害まで考慮するとキリがない。日本は地震が多いから、と世界の裏側にバックアップを取っていたとしても今度は紛争、暴動などでデータセンターごと破壊される可能性*2が出て来る。この辺は「ディザスタリカバリ」で検索するとたくさん情報が出て来ます。

安全性と利便性のコストは分けて考える

あとは安全面のコストと利便性のコストがごっちゃになりやすい。自分も選んだ「光学ディスクにバックアップ*3」という方法は安全面はそれなりで安価ですがとても手間がかかります。この手間を省こうとするとさらにお金がかかるわけです。

NASはバックアップにならない?

使い方によります。バックアップとは1つのファイルに対してもう1つコピーが存在する状態です。冒頭で説明したケースだとコピーは存在していません。パソコンにファイルを保存しておいてそのコピーをNASにも置いておく、という使い方をすればバックアップとなります。なのでパソコンにファイルを置かずNASに直接置くのであれば別のバックアップ先が必要となります。


以下の例はバックアップ先がクラウドになっています。この画像の例だとパソコンにもファイルがあってそのコピーがNASに設置され、さらにコピーがクラウドに設置されるので2重のバックアップとなっています。

f:id:kuiperbelt:20150717144059p:plain
NASのバックアップはクラウド・ストレージへ | IODATA アイ・オー・データ機器

NASよりクラウドの方が安心?

クラウドを推してる人がいましたけど根拠が書かれていないとクラウドは万能!」と勘違いしている人と区別がつかないですね。クラウドは万能ではありません。そう思ってたら以下のコメントが付きました。

ま、こんな事件も有りましたしね。
ascii.jp

このケースはクラウドとは呼びにくい仕組みでしたけど同じ事故はクラウドサービスでも起こりえます。ちなみに自分この事故の被害者です…。

データ消失事故を起こすのは安いクラウド業者?

そうとは限りません。コストをケチって安い業者を選べば当然リスクは高くなりますがファーストサーバはYahoo傘下ですし他にもAmazon EC2さくらインターネットでも発生しました。大手でも安心出来ないわけです。ウイルス被害でも2013年にはトヨタが感染しています。コストをかければ安心、大手なら安心、という考え方そのものが危ない。

クラウドサービスでデータ消失した場合の補償

損害が賠償される事はほとんど無いです。ファーストサーバは1年間の利用料を全額返金しましたがそれですら大英断という状況。大切な顧客データを失った人からすればその程度の補償では何も無いに等しい。ですが裁判を起こしても勝てません。どうやってもトラブルは発生するからです。

クラウドデータ消失リスクは故障より人災

ちなみにクラウドサービスで多いトラブルは故障ではなく人為的ミスです。故障に関しては多くの業者がほぼ完璧に近いシステムを組んでいるので少ない*4です。ミスするなら作業するなよと思うかもしれませんが定期的なメンテナンスはどうしても必要です。新たな脆弱性が見つかればその対応も必要です。個人で設置した機器であれば脆弱性対策全てを自分でやらなければなりませんがクラウドサービスであれば勝手にやって守ってくれます。クラウドのコストが高いのはその費用も入っている為です。ここは結構大きなメリット。

Googleドライブで有料プランした場合のコスト

Googleドライブクラウドの一種ですが比較的選びやすいとは思います。Dropboxでも良いです。年間1,200ドル(約15万円)は厳しいと返信されてますが1TBで9.99ドルなので現状4TBで足りていて年1TBずつ増えて行くなら

  • 5TBを月50ドル(6,200円)で借りる
  • 暇な時に古いファイルから光学ディスクに焼いて毎年1TBの空き容量を確保する

という手法もありえます。ちなみにブルーレイの容量はよくあるタイプで50GB(2層)なので1TBを移動するには20枚焼く必要があります。50GBだと1枚約200円なので4,000円です。

バーベイタム BD-R DL 片面2層 録画用 260分 1-4倍速 20枚 VBR260YP20V1 / バーベイタム☆送料...

バーベイタム BD-R DL 20枚 VBR260YP20V1
価格:4,317円(税込、送料込)

【Joshinは平成20/22/24年度製品安全対策優良企業 連続受賞・Pマーク取得企業】VBR520YP5V1【税...

バーベイタム BD-R XL 5枚 100GB [VBR520YP5V1]
価格:4,980円(税込、送料込)

納期:【取寄品 出荷:約2−4日 土日祭日除く】【三菱 Verbatim】VBR130RP50V4 (BD-R 6倍速50枚)

三菱Verbatim VBR130RP50V4 BD-R 6倍速 50枚
価格:2,249円(税込、送料別)

まだ広く出回ってないですが128GBのブルーレイ(BDXL・4層)も登場しているのでそれを使えば9枚で済みますが市販されているのは100GB(3層)までなので10枚です。100GBは1枚1,000円なので10,000円かかる事になります。

容量 1枚当り金額 1TBに必要な枚数 1TB金額 手間
50GB 200円 20枚 4,000円 月2回作業
100GB 1,000円 10枚 10,000円 月1回作業
25GB 45円 40枚 1,800円 週1回作業

価格だけ見れば年間1,800円で済む25GBの圧勝ですが「ファイルを選んで書込み」という作業を年間40回繰り返す事になります。ほぼ毎週です。100GBだと年間10回で済み、月1回未満です。そう考えれば現実的な手間ではあります。とは言え月6,200円払ってるのに毎月1回作業させられてさらに年間1万円を支払うのは引っ掛かります。どうせ定期的な作業が発生するのであれば割り切って週1を選び、コストを最安にした方が良さそうです。

いい加減なアドバイスは無視しよう

ハードウェアRAIDはボードが壊れると、ど〜しようもないので、私はWindows標準のソフトウェアRAIDです。 今のところ問題ありません。

ありがちな反応ですが問題(トラブル)がないのはたまたまです。ソフトウェアRAIDなら大丈夫という根拠が無い。現時点で問題が起きていない=自分の選択は正しい、という勘違いですね。被害に遭う時は何を選んでいても遭う。それに気づくのは被害に遭った時だけなので理解してもらうのも難しい。今回の事故はまさにそのソフトウェアRAIDで発生しているのでそれすら確認せず如何にテキトーなコメントを付けてるかがわかる良いサンプルです。無視しましょう。

NASのHDDは故障時期が同じ?

これも大事な部分です。複数のHDDが入ったNASだとどうしても同時期に生産されたHDDが入るので必然的に故障時期も近くなりやすい。中のHDDの生産時期まで考えなきゃいけないのか!って思うかもしれませんがそうなんです。例えば別の話になりますが2011年はタイで洪水があったので2011年製HDDは選んじゃダメって意見もあります。

タイは世界のHDD生産地

洪水で生産量が減る

でも需要はあるから極力出荷したい

例年より不良品チェックがゆるくなる(不良品出荷率が上がる)

という図式です。NASと一緒にHDDをもう1セット買って半分だけ入れ替えて使う人もいます。「RAIDを信じてない」というのは言い過ぎですが「RAIDを過信しない」と読み替えるとその通りだと思います。

RAID1ではなくRAID5を選ぶべき?

外付けHDDにたくさん保存するとか、RAID5対応のサーバーとか、そっちの方が良いかと…
NASとかは故障すると厄介ですから…

NASはダメ、サーバが良い」みたいな言い方になっていますが誤解です。RAID5はサーバではなくNASでも対応製品があり、自分が会社で使っているNASがそうです。サーバかNASかで故障率が変わるわけではなくあくまで中身のHDDとRAIDコントローラの質によります。サーバだと*5故障率は低くなりますが高額なので当然です

f:id:kuiperbelt:20150720133023p:plain:w450
特長別RAIDモードガイド | BUFFALO バッファロー

RAID5って何?

RAID1が2台を1台として使うのに対しRAID5は3台以上を1台とみなす方式です。RAID1より優れた点は読み書き速度*6であって安全性ではない点に注意です。状況によってはRAID1より信頼性が下がる*7事もあります。合計1TBのHDDを用意した場合、RAID1では半分の500GBしか使用出来ませんがRAID5では3/4の750GBまで使用出来るというメリットがあります。

データ量が異なる人の意見は参考にしない

既に4TBのデータが存在し、毎年1TBが増えて行くという個人はなかなかいません。バックアップで手作業を安易に薦めて来る人は扱うデータ量が少ない可能性が高い。似た境遇の人がどうやっているか?を探すのが良いです。

フリーソフトでデータの復旧は可能か?

今回のケースはRAID故障なので同列には語れませんがHDDトラブルは無料の復旧ソフトで復元出来る事が大半だったりします。但し、使い方を調べてたりすると時間がかかるので詳しい人以外は有料の復旧ソフトを買った方が安く上がります。以下は誤って削除してしまったデータを復元させるソフトです。

【当店限定!エントリーでポイント19倍!】7/18(土)10:00〜7/21(火)9:59 【在庫あり】【15時ま...

ファイナルデータ
価格:8,499円(税込、送料別)

素人の復旧がデータを破壊する?

が、素人の復元作業が原因でデータを完全に破壊してしまう事もあります。その場合でも復旧させるすごい業者がいますが最初から依頼するより値段が跳ね上がるという…。でも意外とあっさり復元出来ちゃったりするし…その辺の兼ね合いというかトレードオフが難しいところです。

まとめ

後で気づきましたが被害に遭われた方はプロのカメラマンさんのようなので保存しているデータは事業用データという事になります。そうなるとコストも個人レベルに留めるのではなく、ある程度のコストをかけた方が良いです。クラウドにしろNASのレベルを上げるにしろ金額はかさみますがそういうものです。

門外漢はコストを安く見積もりがち

例えば自分は写真に関して門外漢なので「出張カメラマン1時間1万円?時給1万円もするのかー」と一瞬思ってしまいますが素人とプロでは腕前はもちろん、設備や機材にかけられたコストが雲泥の差なのでそこまで考えれば妥当な金額、ともすれば安価なのでは?という考えに至ります。

とは言え、かけられるコストには上限がある

データを守るにはどの程度のコストが妥当なのか?は本当に難しい。今回のRAID障害は確率としては本当に低いんです。一方で突然5万円の出費が発生するのは痛いわけです。事故直後はこんなの2度とごめんだ!と思うので色々考えてしまいますが考えすぎた挙句にコストをかけ過ぎてしまう事が多いです。

元々の構成は決して悪くない

確率的にはRAID1のNAS1台をファイル置き場としてデータを置くだけでも十分なんです。やるとすればRAID1のNASを2台構成にして1台を今まで通りファイル置き場として使い、もう1台へ自動的にバックアップを取るようにしておく、というのがコスト的に妥当な選択だと思います。

あとは繰り返しになりますがHDD状況を小まめに確認する事が重要です。バックアップがきちんと機能しているか定期的に確認する事も大切。2台設置したけれど片方には部分的にしかデータがコピーされてなかった!なんて事もありえます。でもこれはもう仕方ない。バックアップに関しては「こうすれば安心!」という考え方を捨て去る事が重要。2台にしてもきちんと確認。

  • HDD異常が無いか管理画面で確認
  • HDDから異音がしていないか確認
  • バックアップ側のNASにきちんとデータがコピーされているか確認

病気と一緒で早期発見、早期対応がコストを下げます。台風で川が増水した時に田んぼへ様子を見に行って亡くなってしまう事故が未だに起きますがHDDをチェックしても死ぬどころかケガすらしませんからね!メシの種を確認しに行くという行為自体は同じなのにリスクが段違いです。

光学ディスクとの併用は不可欠

毎年1TB増えて行くとなると15年で15TBです。2台構成なら30TB必要という事になります。個人でどうこう出来る量じゃない。となると古いデータはそのまま破棄するか光学ディスクにコピーしてから破棄するのが現実的。NASに置いておくデータは常に一定量とすればコストを抑えられます。ブルーレイドライブは以下を買って使っていますがWindowsだけでなくMacに繋いでも読めたので良い機種だと思います。

個人的には5年前以前のデータは破棄すべきだとは思います。役所関係の保存期間も5~7年が主流ですし。保存期間の長さが売上に繋がっているのであれば別ですが。


*1:諸説ありますが温度さえ気を付けていれば付けっぱなしでも寿命は変わらない気がします。最初から24時間稼働を前提に設計されたSASのHDDもありますがかなり高価です。よくあるSATAのHDDは1日8時間が目安です

*2:治安が良い場所は安くないです

*3:不織布に保管すると劣化しちゃうブルーレイもあるので不織布保管を止めるかハードコートのブルーレイを選ぶ

*4:HDD異常を検知したら勝手に切断して新しいHDDを接続、復旧という一連の流れが自動化(!)されているところすらあります

*5:良いRAIDコントローラが搭載されているので

*6:RAID1は読み書き速度が遅い

*7:例えばRAID5(3台のHDD)のうち1台が故障した状況になるとRAID0(信頼性が最も低いRAID)と同じ状態になり、同じ1台の故障にもかかわらずRAID1(2台のHDD)で1台が故障した時より危険な状態に