Blog

ブログ

データマネジメント

名寄せとデータクレンジング④~マッチングデータの作成

前回は名寄せ用の項目はなるべくシンプルにすることをおすすめしました。これは項目内の情報も同様です。
ここで改めて認識しておくべきことは、実運用の項目で表示される情報とマッチング用の項目のそれは別、ということです。名寄せ用のデータクレンジングは見栄えを整えるのではなく、データをマッチングキーに近づけることを目指しています。そのためにデータからノイズを消し、なるべくシンプルな識別子にすることが重要となります。
例えば氏名項目で姓と名の間にスペースを入れる仕様になっていたとして、見栄えもよく姓名分割の際には便利ですが、得てしてこういうルールは厳密に守られることがなく、あったりなかったり、時にはスペースではなくナカグロ(・)が入っていたりします。たったこの違いだけでマッチするものがしなくなってしまいます。識別上意味を持たない余計な情報は予め除去しておくのがコツです。以下、各項目で予め施しておくべき主なクレンジング内容をご説明します。

<氏名>
まず、スペース、記号等の除去は上述のとおりです。全半角はどちらかに統一します。ひらがな・カタカカナもどちらかに統一します。カナの中で「ャ」「ュ」「ョ」を大文字に、濁音・半濁音は除去(全角文字の場合は文字変換)。異体字・旧字はどれか一つに統一させます。例えば「斉・斎・齋・齊」はどれでもいいですが「斉」に揃えてしまうなどです。こうした漢字の統一は800種類程度あります。
法人名については商号を整理する必要があります。「株式会社」「財団法人」「(株)」「(財)」などの法人格ですが、これが前にあったり後ろにあったりしますので、表記を統一するのでなく、消してしまう方が合理的です。

<住所>
住所については前回も書きましたが、できればコード化することをおすすめします。その理由については以前書きました拙文(ブログ)をお読みください。

なぜ住所データをクレンジングする必要があるのか

住所データのコード化とは何をすることなのか

なお、住所をバーコードデータ化する場合、建物名・階・号室の取り扱いがネックになります。自らの住所を登録(入力)する際、アパート・マンション名が煩わしくなることがないでしょうか。そんなとき、建物名以下を一切省く場合と地番のあとに「-101」などと号室だけ付け足す場合があります。省略の仕方に一貫性がれば問題ないのですが、時と場合(つまり気分)によって変わるのが普通です。したがって建物項目はマッチングに利用しない、という考え方もあるのですが、住所項目の最後にハイフンつなぎで号室だけあるものを個別に排除するのは非常に厄介でもあり、データの全体傾向を考慮して方法を決めることをおすすめします。

<電話番号>
電話番号は半角に統一して数字以外はすべて除去が基本です。

<メールアドレス>
半角統一や前後の余計なスペース除去ぐらいでメールアドレスについてはあまりやり過ぎない方が無難です。

<生年月日などの年月日>
年月日は表記方式にも注意したいところです。和暦の西暦変換は勿論のこと、年月日表記の順番などです。一般的に日本(東アジア)では”yyyy/mm/dd”ですが、欧州では”dd/mm/yyyy”、アメリカでは”mm/dd/yyyy”などとなっています。

細かい点はまだまだありますが、最低限上記のようなクレンジングを施しておく必要があります。これによって初めてデータマッチングに取りかかれます。

つづく