ブログ
データマネジメント
公開日:2022/09/14
住所クレンジング、すなわち住所データの正規化、コード化にはプログラムが必要です。プログラムで行う住所データのクレンジングでは住所表記の揺れを吸収した上で住所マスタと照合させます。住所表記の揺れとは、最初の「なぜ住所データをクレンジングする必要があるのか」でご紹介した下記のパターンが想定されます。
(1)都道府県名の省略。
(2)旧住所名の放置。
(3)字(あざ)表記の省略。
(4)小字名の省略、通称名の記述。
(5)漢数字・算用数字の混在。
(6)丁目・地番表記の揺れ。
(7)建物名表記の揺れ。
(8)京都通り名などの特殊な表記。
都道府県のみならず政令指定都市の市名を省略するケースも少なくありません。住んでいる側からすれば自明のことでも、例えば「南区」というのは全国に13市(札幌、横浜、相模原、さいたま、名古屋、新潟、浜松、京都、堺市、岡山、広島、福岡 、熊本)もあり、部外者の判読には時間を要します。
旧住所の検知と修正について、市町村合併による変更を市町村名だけ一律置換してしまえば変換できると思ってやってしまうと大変なことになります。合併の際に旧町村名を大字名として残したりするケースもあり、一度この置換を強行してしまうとデータの可逆性を失い、元に戻せなくなってしまします。
地域名の前に置く「字(あざ)」は大抵はあってもなくても支障ありません(ある場合もまれにあるため一律消すことはできません)が、付ける付けないは多くの場合記述・入力する人によります。小字名については、元々必要ない地域もあれば、敢えて省いてしまう人もいます(厳密には正しくありません)。一方、その地域でのみ通用する通称名を書き記す人がいるなど、揺れの吸収と正誤の判定は容易ではありません。こうした判断については、正確なマスタと照合させることでしか合理的な対応はできません。
数値に関わる部分についても、表記は様々であるため、それらを統一させるにはノウハウがないと処理はなかなか難しいものとなります。
数えるほどの件数のデータなら丁寧に調べていけば上記の作業はできなくなはいですが、千単位、万単位のデータを一つ一つ潰していくのは現実的ではありません。
勿論プログラムにも限界はあり、根本的に間違っていたり足りない情報を正しくすることはできません。しかしデータがどのレベルで間違っているかを示すことは可能であり、そこで初めて人間の判断によって解決する段階となる訳です。
ここでやっと自社製品の紹介となりますが、Address-Catchはこれまで述べてきました問題点の解決とデータ活用のために作られたプログラムであり、弊社サービス業務でも利用しつつお客様へも提供させていただいております。興味ある方、これまで述べてきた住所クレンジングに関する疑問がある方、何でも結構ですのでお問い合わせいただけますと幸いです。