Blog

ブログ

データマネジメント

名寄せとデータクレンジング②~名寄せの目的とその段取り

前回、名寄せが進めばデータベースの統合へつながって行く、というお話をしました。これは名寄せは目的でなく手段であることを指しています。統合や一元化が目的だとすると、なぜそんなことをする必要があるのでしょうか。そもそもデータの統合もその先にあるビジネスのための手段ではあるのですが、そこを考える前にまず統合や一元化の逆の状態を想像してみましょう。それは不統一でバラバラ、ということになりますが、そのようなデータ群の特徴をまとめてみると以下のような状況が考えられます。

A.データ間をつなぐ共通のキーとなる情報がない
B.データの仕様に差がある
C.仕様が曖昧で想定通りにデータがセットされていない

成り立ちの違う複数のデータは、当然最初はAとBの状態にあります。そこから名寄せによって共通のキーコードやマスタなどを設定・付与(Aの状態の解消)して複数のデータを統合・管理することになります。そのために必要なのが各データテーブル仕様の整理ですが、成り立ちが違う以上、仕様に差異があるのは当然です(Bの状態)。Bの状態のまま特に確認もせず無理矢理データとデータを結合させて名寄せをしてみても、データは統合された状況にはなりません。なぜでしょうか。それは情報を電子化することの意義とも関係しています。

かつて情報は紙に記されていましたが、重要な情報は索引を作りアイウエオ順などに並べ替えたりして編集されていました。紙上でこうしたインデックスを作成するのは非常に労力を要しましたが、これを容易にしたのがコンピュータです。情報を電子化して整理すれば、新しい情報を追加登録したり修正しても、ソート(並べ替え)や検索、セグメンテーションは何度でもやり直せますし、他の情報(データ)との照合も瞬時に可能となります。
ただし、闇雲に電子化すればいいというものではなく、一定のルールに沿って情報を格納させておく必要があります。無秩序にデータが混在している状況ではソートもかけられませんし、検索しても不要なノイズばかりが上ってきてしまいます。データ結合においても同様で、違うルールのままのデータをつなげてしまうと、後戻りできなくなるような混乱を招く可能性があります。

Bの状況確認と整理・統合案ができたとしても、データが想定通りにセットされていなければ先には進めません(Cの状態)。Cの状態はデータの中身がいい加減で想定通りに納まっていない場合と、整理・統合するにあたってデータテーブルの片方もしくは両方が統合後の仕様にないため何らかの修正を加える必要がある状態を言います。そして残念ながら大抵のデータは前者と後者両方の状態にあると覚悟しておいた方がよいでしょう。このCの状況を解消する名寄せのお膳立てとなる作業がデータクレンジングとなります。

データ統合を行うビジネスの目的は様々ですが、統合されていない状況(不統一でバラバラ、すなわちA~Cの状態)のデメリットの解消という意味では共通しています。その解消のための名寄せであり、そのお膳立てとしてのデータクレンジング、という関係に三者はあります。
データ統合までの流れは、まず仕様の確認と整理、新たな共通仕様・統合ルールの策定、次に(もしくは同時平行で)データの状況の確認と修正、そして名寄せ、という段取りを踏むことになります。

つづく