エニイのブログ

【本のご紹介】『データサイエンス入門』

2018年8月9日 データマネジメント

こんにちは、K又です。今回は住所のお話はお休みして、最近読んだ興味深い本をご紹介します。

「データは新しい石油」という言葉をちょくちょく耳にします。これは2011年に世界経済フォーラムで「パーソナルデータは、インターネットにおける新しい石油であり、デジタル世界における新たな通貨である」(訳は「情報通信白書(平成26年版)」より引用)と報告されて以来使われている言葉のようです。それからこのフレーズは時にもてはやされ、時に否定されながら現在に至っています。
肯定的に使われる場合は、大量のデータを集めやすくなった情報環境が根拠になり、否定的な場合は、(いわゆる)ビッグデータにはノイズが多く、かつすぐに陳腐化し、それらを玉石混交のまま溜め込んでも意味をなさない等々の理由があげられています。
裏を返せば、ノイズを選別し、正しくデータ更新を行い、客観的な判定ができるように適切な抽出を行えば有意なデータが得られる、ということにもなります。

そこで出てくるのが「データサイエンス」という学問であり、今回ご紹介する『データサイエンス入門』に繋がります。
著者の竹村彰通さんは滋賀大学に日本初のデータサイエンス学部を開設した統計学の専門家です。そのため本書は統計学的な観点が基本になっていますが、難しい数式などは使わずに具体的な例を使い、順を追って丁寧に説明されていますので、数字が苦手な方でも読み進められます。
したがって初学者にはうってつけの本ですし、私のような中途半端な浅い知識しか無い人間には噛み締めながら読むことができます。そして専門家の方でも他者に説明する場合のヒントになるのではないかと思います。

さて、本書をオススメする私が最も感銘を受けたのは、データ処理に関する記述の以下の部分になります。

 データが表形式に整理されていればさまざまな分析が可能となるが、実際には表形式に整理するまでの作業に時間がかかることが多い。データを表形式に整理する前の作業を「データクリーニング」あるいは「データクレンジング」と呼ぶ。実際のデータ分析作業においては、データクリーニングに大半の作業時間を使うことも多い。(114ページ)

ここで「そう、ここなんだよ、我々が日々やっている業務は!」と思わず叫びそうになるくらい膝を打ちました。トップの分析家ですら抱えている苦労が自分たちの業務なんだな、と思うとつい嬉しくなります。
この苦労を請け負うのが我々(弊社)の業務なんですが、それをお客様にご理解いただくのが我々の苦労だったりもします。
著者の竹内さんは日本にデータサイエンスを根付かせ、その人材を増やすことを目的に学部を開設され、同時に本書も書かれた訳ですが、そうして「データクレンジング」に苦労される方がどんどん増えてくれば我々の仕事も増える訳でして、この苦労が広く理解されることを願いつつ、皆さんに本書をオススメする次第です。

参考までに、本書の発売に際して岩波書店のサイトに著者インタビューが載っていますので(下記)、併せて読まれると理解が深まるかと思います。

竹村彰通さん『データサイエンス入門』インタビュー
https://www.iwanamishinsho80.com/contents/takemuraakimichi

『データサイエンス入門』 (岩波新書) 竹村彰通 著
https://www.amazon.co.jp/%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9%E5%85%A5%E9%96%80-%E5%B2%A9%E6%B3%A2%E6%96%B0%E6%9B%B8-%E7%AB%B9%E6%9D%91-%E5%BD%B0%E9%80%9A/dp/4004317134/ref=sr_1_1?s=books&ie=UTF8&qid=1533711960&sr=1-1&keywords=%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9%E5%85%A5%E9%96%80