Blog

ブログ

データマネジメント

なぜ住所データをクレンジングする必要があるのか

何らかの個人データベースがあるとして、氏名・電話番号・メールアドレスがあれば最近は事足りることが多いかもしれません。しかしもう一歩踏み込んで個人データを活用するなら欠かせないのが住所情報です。
電話番号やメールアドレスなどのデータはコンピュータにとって識別が容易ですが住所情報は取り扱いが非常に厄介です。住所の表記方法には一定のルールはありますが、それは人間の目視しやすいルールに過ぎず、様々な表記の揺れが生じてしまいます。これが住所の厄介さの原因です。主な揺れのパターンとしては以下の8つが考えられます。

(1)都道府県名の省略。
(2)旧住所名の放置。
(3)字(あざ)表記の省略。
(4)小字名の省略、通称名の記述。
(5)漢数字・算用数字の混在。
(6)丁目・地番表記の揺れ。
(7)建物名表記の揺れ。
(8)京都通り名などの特殊な表記。

郵便配達員の目がAI化されているならともかく、コンピュータのソート(並べ替え)程度の機能では上記の揺れはなかなか制御できません。たとえば、さいたま市市役所の住所を上記揺れパターンを参考に思いつくままに書いてみると以下のようになります。

①埼玉県浦和市常盤6丁目4番4号
②埼玉県さいたま市常盤6丁目4番4号
③埼玉県さいたま市浦和区常盤6丁目4番4号
④埼玉県さいたま市浦和区常盤六丁目四番四号
⑤埼玉県さいたま市浦和区常盤6丁目4-4
⑥埼玉県さいたま市浦和区常盤6-4-4
⑦さいたま市浦和区常盤6-4-4
⑧さいたま市浦和区常盤6丁目4の4
⑨浦和区常盤6-4-4
⑩浦和区常盤六ノ四ノ四

揺れのパターンとしては、上記は(1)(2)(5)(6)の影響を受けています。揺れを是正し表記統一させるなら⑤か⑥あたりが妥当かもしれませんが、記入・入力、もしくは修正処理の際に厳密なルールを設定して運用するのはなかなか大変です。

話を最初に戻しますと、では電話番号やメールアドレスはなぜコンピュータにとって識別が容易なのでしょうか。それは電話番号は数字(とハイフン)のみ、メールアドレスはアスキーコード範囲内の文字列で構成されており、電話番号は市外・市内局番で、メールアドレスは@以降がドメイン名で体系化、すなわちコード化されているからです。
同様に住所もコード化してしまえばこれらの問題は解決するはずです。表題の「なぜ住所データをクレンジングする必要があるのか」の問いの答えはコード化させれば扱いが便利になるから、ということになります。
つづく