orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

データはやっぱり消えるべき

f:id:orangeitems:20200908090701j:plain

 

昨今、ストレージにかかる費用が下がり、大容量データを保管することに抵抗が無い時代が到来しました。これからはデータの時代だ、データを制する者が市場を制す、データ至上主義、データドリブン、いろんなことが言われています。

その結果起こったことは、データをとにかく保管すること。データは消さない。データは永遠に保管されるべき。その結果ストレージサーバーに保管されるデータの量は近年ますます増大しています。

確かにハードディスクやSSDの1ディスクあたりの容量は増大していますし、クラウドにはオブジェクトストレージのように最大容量が無制限、という技術も普及しました。データを永続保管するための機材は整ってきたように見えるのですが、インフラまわりを担当していると、こうした傾向には警戒感をおぼえます。

というのは、この有象無象のデータ、持ち運び、いわゆるモビリティーに難があるのです。数TBのデータですら、ここから、あちらへ移動するのには大変な時間がかかります。

データの置き場所の面積は確かに広大になりました。ですから業務プロセス担当はデータを作ってはどんどん持ち込みます。広大な空き地にどんどんデータが積みあがっていきます。積み上げるまでは順調です。そして広大なデータの広がりができあがることになります。

問題はその後です。もし、このデータの置き場所が老朽化してしまったらどうなるでしょう。もしくは、別システムに移行するためにデータを加工しなければいけなくなったとしたら。この積み上げられたデータを永久に使うためには相当な努力が必要です。

システム移行の際に、旧システムのデータをどう取り扱うかで暗礁に乗り上げるケースをいくつも、いくつも見てきました。

データ自身がシステムから独立していれば、システム移行に振り回されることもないのですが、そう都合がよくできる場合は少ないです。アプリケーションとデータは基本的に密接な関係、もしくは一蓮托生である場合がほとんどだからです。したがって、分析用のデータは、アプリケーションのデータと乖離させ、コピーして使うというのもよくある使われ方です。

また、いくらアプリケーション側で工夫しても、データは必ずハードウェアの上にあるため、そのハードウェア自体の保守期限があります。ストレージサーバー側のソフトウェアで新しいハードウェアへ高速移行するようなソリューションもあるにはありますが、例えば十年単位でこの機能を保証してくれるストレージサーバーは限られますし高価です。また、マルチベンダーになると、この常識は通用しません。単純コピーするしかなくなります。

このように、データ自身が抽象的な概念として独立してはおらず、アプリケーションやハードウェア、通信回線などの技術に依存していることから、データを永久保存するという観点は良くない、と思っています。

もともとのデータを生み出す際に必要な情報のみを取得し蓄積すること。そして、不要になったら消すこと。大昔はこれは常識だったのですが、最近はルーズになっています。とにかく消さない、データはどんどん生み出す、ということまで言う人まで現れました。これは、データを巡る様々な事情を知らないからこそ発想されるものだと思っています。

インターネットにあるデータは無限に残ると思われがちですが、サービス終了で無くなることが多いです。なぜサービスが終了してしまうかの一端に、データを保管しきれない、ということもあるのではないでしょうか。データを保管しインターネットに公開するにはコストがかかるのです。無駄なデータであればあるほど、無駄なコストです。だからサービスは終了してしまいます。

アプリケーションを作る側も、データを保管する側も、そしてデータを活用する側も、全員が、データを最小限にする努力こそ今後必要になってくるのではないでしょうか。形あるもの必ず朽ちるので、データだけが永遠、とはいかないのです。