せーブログ

買物する際にお得かどうか調べちゃうくせに後で同じ事を調べ直してばっかり。なので記録を残す事に。似た状況の人の轍になれれば

2012年はビッグデータ元年?

はい本日の記事はこちら!

【特集2】2012年 ビッグデータ経営革命
・ようやく機が熟した! 2012年はビッグデータ元年
・〈Column〉人材不足で“取り合い”は必至 データサイエンティストなる職種



週刊ダイヤモンド 2012/01/28日号

メインはゼネコンですがそれは置いといてビッグデータについて。Wikipediaによるとビッグデータとは「通常のデータベース管理ツールなどで取り扱う事が困難なほど巨大な大きさのデータの集まり(構造化データ+半構造化データ+非構造化データ)」との事。


データベースとそれを制御するシステムを開発しているので無縁ではない話。自分がビッグデータという言葉を初めて聞いたのはmiximemcachedを使っているという記事を読んでその関連をちょっと調べた時。だから結構前の話。だからちょっと今更な感じがしてしまう。Memcachedと言えば最近、と言っても一昨年の話だとFacebookではmemcachedに300TB以上のライブデータを置いてるらしいですね。


構造化データっていうのは製品コードと製品価格の関係のようにその名の通り構造化されたデータ。じゃあ非構造化データって何なの?

ビッグデータのデータ構造は、業務データなどを扱う従来のRDBMSリレーショナルデータベース管理システム)に格納できない非構造化データが大半を占める。非構造化データはネット上で急増している。世界で数億人が登録するFacebookTwitterなどソーシャルメディアの利用拡大に加え、大容量の映像データのビデオサイトへの投稿が増えているからだ。


 このほか、コールセンターへの問い合わせ履歴や通話履歴、電力を制御するスマートメーター、定期券などで利用される無線ICタグや各種センサーも非構造化データである。


ネット上で急増する「非構造化データ」 ビッグデータの活用がビジネスを制す - IT Japan 2011レポート:ITpro

問い合わせ履歴や通話履歴なんかはさすがに従来のRDBMSでも問い合わせIDや通話ID、顧客ID、製品IDなんかを付けて管理してると思うけどやはりFacebookTwitter、ブログなどの文章は非構造化データだろう。記事内ではamazonのようなネットショッピングサイトでカートに入れたけれど買わなかった商品なんかも取り扱っていると書かれていた。


一体どれだけの件数になるの?!日ごろ数十万件のデータで苦しんでる身からすると気が遠くなるような話。記事内ではさらに「ビッグデータ」ビジネスに必要なスキルとして以下を挙げている。

・ビッグデータの対象となるビジネスの経験
・ビッグデータを扱うためのテクノロジーのスキル
統計学のスキル
・プロジェクトマネージャーのスキル


グローバル化で就職が無理ゲー化している | HYIP de orz

今のところ仕事でビッグデータを扱う予定もスキルもないのですがちょっと思うところはある。


最近では昔じゃ考えられないほどあらゆるデータがウェブ上に公開されている。厚生労働省の統計データなんて宝の宝庫*1。この厚労省の統計データのように一般人が誰でもアクセス出来るお宝データも見る目が肥えていないと全く生きない。だから今後は統計分析に長けた人(=単なる統計を意味ある統計へと変えられる、付加価値を与えられる人)が重宝されるってのはここ数年で強く感じるので仕事とは別にその辺りをちょくちょく勉強していきたいとは思ってます。

*1:頭痛が痛い的用法